[go: up one dir, main page]

JP6188831B2 - 音声検索装置および音声検索方法 - Google Patents

音声検索装置および音声検索方法 Download PDF

Info

Publication number
JP6188831B2
JP6188831B2 JP2015561105A JP2015561105A JP6188831B2 JP 6188831 B2 JP6188831 B2 JP 6188831B2 JP 2015561105 A JP2015561105 A JP 2015561105A JP 2015561105 A JP2015561105 A JP 2015561105A JP 6188831 B2 JP6188831 B2 JP 6188831B2
Authority
JP
Japan
Prior art keywords
character string
recognition
likelihood
language
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015561105A
Other languages
English (en)
Other versions
JPWO2015118645A1 (ja
Inventor
利行 花沢
利行 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2015118645A1 publication Critical patent/JPWO2015118645A1/ja
Application granted granted Critical
Publication of JP6188831B2 publication Critical patent/JP6188831B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

この発明は、言語尤度が付与された複数個の言語モデルから得た認識結果に対して検索対象語彙と文字列上で照合処理を行い、検索結果を取得する音声検索装置および音声検索方法に関するものである。
従来、言語尤度が付与された言語モデルとしては、言語尤度を後述する学習データの統計量によって算出する統計言語モデルが使用されることが殆どである。統計言語モデルを用いた音声認識では、多様な語彙や言い回しの発話を認識することを目的とする場合、様々な文章を言語モデルの学習データとして用いて統計言語モデルを構築する必要がある。 しかし、広い範囲の学習データで単一の統計言語モデルを構築すると、ある特定の話題、例えば天気の話題の発話を認識するためには、必ずしも最適な統計言語モデルになっていないという問題があった。
この問題を解決する方法として、非特許文献1では、言語モデルの学習データを幾つかの話題に分類し、話題ごとに分類した学習データを用いて統計言語モデルを学習し、さらに認識時にはそれぞれの統計言語モデルを全て用いて認識照合を行い、認識スコアが最大の候補を認識結果とする技術が開示されている。この技術によれば、特定の話題の発話において、該当する話題の言語モデルによる認識候補の認識スコアが高くなり、単一の統計言語モデルを用いる場合よりも認識精度が向上することが報告されている。
中島他、「大語彙連続音声認識のための複数言語モデルの並列同時単語列探索法」、情報処理学会論文誌、2004年、Vol.45、No.12
しかしながら、上述した非特許文献1に開示された技術では、学習データが異なる統計言語モデルを複数個用いて認識処理を行うため、学習データが異なる統計言語モデル同士では、認識スコアの算出に使用する言語尤度が厳密には比較できないという課題があった。これは言語尤度が、例えば統計言語モデルが単語のトライグラムモデルなら、認識候補の単語列に対するトライグラム確率に基づいて算出されるが、学習データが異なる言語モデルでは、同一の単語列に対してもトライグラム確率が異なる値となるためである。
この発明は、上記のような課題を解決するためになされたもので、学習データが異なる統計言語モデルを複数個用いて認識処理を行った場合においても比較可能な認識スコアを取得し、検索精度を向上させることを目的とする。
この発明に係る音声検索装置は、音響モデルおよび学習データの異なる複数の言語モデルを参照して音響尤度と言語尤度に重み付けして求めた認識スコアを用いて入力音声の音声認識を行い、複数の言語モデルごとに認識文字列の音響尤度および言語尤度を取得する認識部と、音声検索の対象となる検索対象語彙の文字列を示す情報を蓄積した文字列辞書を記憶する文字列辞書記憶部と、認識部が取得した複数の言語モデルごとの認識文字列と、文字列辞書に蓄積された検索対象語彙の文字列とを照合し、検索対象語彙の文字列に対する認識文字列の一致度を示す文字列照合スコアを算出し、認識文字列それぞれについて最も文字列照合スコアが高い検索対象語彙の文字列および当該文字列照合スコアを取得する文字列照合部と、文字列照合部が取得した文字列照合スコア、認識部が取得した音響尤度および言語尤度のうち、2以上の値の加重和として総合スコアを算出し、算出した総合スコアが高い順に1以上の検索対象語彙を検索結果として出力する検索結果決定部とを備えるものである。
この発明によれば、学習データが異なる複数個の言語モデルを用いて入力音声の認識処理を行った場合にも、各言語モデルに対して互いに比較可能な認識スコアを得ることができ、音声検索の検索精度を向上させることができる。
実施の形態1による音声検索装置の構成を示すブロック図である。 実施の形態1による音声検索装置の文字列辞書の作成方法を示す図である。 実施の形態1による音声検索装置の動作を示すフローチャートである。 実施の形態2による音声検索装置の構成を示すブロック図である。 実施の形態2による音声検索装置の動作を示すフローチャートである。 実施の形態3による音声検索装置の構成を示すブロック図である。 実施の形態3による音声検索装置の動作を示すフローチャートである。 実施の形態4による音声検索装置の構成を示すブロック図である。 実施の形態4による音声検索装置の動作を示すフローチャートである。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、この発明の実施の形態1による音声検索装置の構成を示すブロック図である。
音声検索装置100は、音響分析部1、認識部2、第1言語モデル記憶部3、第2言語モデル記憶部4、音響モデル記憶部5、文字列照合部6、文字列辞書記憶部7および検索結果決定部8で構成されている。
音響分析部1は、入力音声の音響分析を行い、特徴ベクトルの時系列に変換する。特徴ベクトルは、例えばMFCC(Mel Frequency Cepstral Coefficient)の1〜N次元までのデータである。Nの値は例えば16である。
認識部2は、第1言語モデル記憶部3に記憶された第1言語モデルおよび第2言語モデル記憶部4に記憶された第2言語モデルと、音響モデル記憶部5に記憶された音響モデルとを用いて認識照合することにより、入力音声に最も近い文字列を取得する。より詳細には、認識部2は、例えばビタビアルゴリズムを用いて音響分析部1が変換した特徴ベクトルの時系列に対して認識照合を行い、各言語モデルについて認識スコアが最も高い認識結果を取得し、認識結果である文字列を出力する。
なお、この実施の形態1では文字列は認識結果の発音を表わす音節列とする場合を例に説明する。また、認識スコアは、ビタビアルゴリズムによって音響モデルを用いて算出した音響尤度と、言語モデルを用いて算出した言語尤度との加重和によって算出するものとする。
上述のように認識部2は各文字列に対して音響モデルを用いて算出した音響尤度と、言語モデルを用いて算出した言語尤度との加重和である認識スコアも算出するが、各言語モデルに基づく認識結果の文字列が仮に同一であっても認識スコアは異なる値となる。これは、同一の認識結果の文字列である場合、音響尤度は両言語モデルで同一となるが、言語尤度は各言語モデルで異なる値を取ることによる。このため、各言語モデルに基づく認識結果の認識スコアは厳密には比較可能な値ではない。そのため、この実施の形態1では、後述する文字列照合部6において両言語モデル間で比較可能なスコアを算出し、検索結果決定部8が最終的な検索結果を決定することを特徴としている。
第1言語モデル記憶部3および第2言語モデル記憶部4は、検索対象とする名称を形態素解析して名称を単語の系列に分解し、単語系列の統計言語モデルとして作成したものを記憶している。なお、第1言語モデルおよび第2言語モデルは、音声検索が行われる前に作成しておく。
具体例を挙げて説明すると、検索対象が例えば「那智の滝」との施設の名称であった場合、「那智」、「の」および「滝」という3単語の系列に分解し、統計言語モデルを作成する。なお、この実施の形態1では単語のトライグラムモデルとするが、バイグラムやユニグラムなど、任意の言語モデルを用いて構成してもよい。施設名称を各単語の系列に分解することにより、発話が「那智滝」など正しい施設名称で行われなかった場合にも音声認識を行うことができる。
音響モデル記憶部5は、音声の特徴ベクトルをモデル化した音響モデルを記憶している。音響モデルとしては、例えばHMM(Hidden Markov Model)などが挙げられる。文字列照合部6は、文字列辞書記憶部7に記憶された文字列辞書を参照し、認識部2から出力された認識結果の文字列に対して照合処理を行う。照合処理は認識結果の文字列の先頭の音節から順に文字列辞書の転置ファイルを参照して行われ、当該音声を含む施設の文字列照合スコアに「1」を加算する。当該処理を認識結果の文字列の最終音節まで行う。認識結果の文字列ごとに、文字列照合スコアが最も高い名称を文字列照合スコアと共に出力する。
文字列辞書記憶部7は、音節を索引語とした転置ファイルで構成された文字列辞書を記憶している。転置ファイルは、例えばID番号を付与した施設名称の音節列から作成する。文字列辞書は、音声検索が行われる前に作成しておく。
ここで、図2を参照しながら転置ファイルの作成方法について具体的に説明する。
図2(a)は施設名称を「ID番号」、「かな漢字表記」、「音節表記」および「言語モデル」で示している。図2(b)は、図2(a)で示した施設名称の情報に基づいて作成した文字列辞書の一例を示している。図2(b)において「索引語」である各音節には、当該音節を含む名称のID番号が関連付けられている。図2に示す例の場合、検索対象と全ての施設名称を用いて転置ファイルを作成しておく。
検索結果決定部8は、文字列照合部6から出力された文字列照合スコアを参照し、文字列照合スコアの高い順に認識結果の文字列を並び替え、文字列照合スコア上位から順に1以上の文字列を検索結果として出力する。
次に、音声検索装置100の動作について図3を参照しながら説明を行う。図3は、この発明の実施の形態1による音声検索装置の動作を示すフローチャートである。
第1言語モデル、第2言語モデルおよび文字列辞書を作成し、それぞれ第1言語モデル記憶部3、第2言語モデル記憶部4および文字列辞書記憶部7に記憶する(ステップST1)。次に、音声入力が行われると(ステップST2)、音響分析部1が入力音声の音響分析を行い、特徴ベクトルの時系列に変換する(ステップST3)。
認識部2は、ステップST3で変換された特徴ベクトルの時系列に対して、第1言語モデル、第2言語モデルおよび音響モデルを用いて認識照合を行い、認識スコアを算出する(ステップST4)。さらに認識部2は、ステップST4で算出した認識スコアを参照し、第1言語モデルについて認識スコアが最も高い認識結果、および第2言語モデルについて認識スコアが最も高い認識結果を取得する(ステップST5)。なお、ステップST5において取得される認識結果は文字列であるものとする。
文字列照合部6は、ステップST5で取得された認識結果の文字列に対して、文字列辞書記憶部7に記憶された文字列辞書を参照して照合処理を行い、文字列照合スコアが最も高い文字列を文字列照合スコアと共に出力する(ステップST6)。次に、検索結果決定部8は、ステップST6で出力された文字列および文字列照合スコアを用いて、文字列照合スコアが高い順に文字列を並び換えて検索結果を決定して出力し(ステップST7)、処理を終了する。
次に、具体例を挙げて図3で示したフローチャートをより詳細に説明する。なお以下では、日本の全国の施設や観光スポットの名称(以下、施設と称する)をいくつかの単語からなるテキスト文書とみなし、施設の名称を検索対象とする場合を例に説明を行う。なお、施設名称検索を通常の単語音声認識ではなく、テキスト検索の枠組みで実施することにより、ユーザが検索対象の施設の名称を正確に記憶していない場合にもテキストの部分一致により施設の名称を検索することができる。
まず、ステップST1として、第1言語モデルとなる全国の施設名称を学習データとした言語モデルを作成し、第2言語モデルとなる神奈川県の施設名称を学習データとした言語モデルを作成する。なお、上述した言語モデルは、当該音声検索装置100のユーザが神奈川県に存在し、神奈川県内の施設を検索する場合が多いが、他の地域の施設も検索する場合があることを想定したものである。また、文字列辞書として図2(b)に示した辞書を作成し、文字列辞書記憶部7が記憶しているものとする。
ここで、本例では入力音声の発話内容が「碁鎖家具(ごくさりかぐ)」であり、当該施設が神奈川県内に一軒のみであり珍しい名称である場合について説明を行う。ステップST2の音声入力の発話内容が、例えば「碁鎖家具(ごくさりかぐ)」である場合、ステップST3として「碁鎖家具(ごくさりかぐ)」に対して音響分析が行われ、ステップST4として認識照合が行われる。さらに、ステップST5として以下の認識結果が取得される。
第1言語モデルに対する認識結果は、文字列「ko,ku,sa,i,ka,gu」であったとする。但し文字列中の「,」は音節の区切りを表す記号である。これは、第1言語モデルが前述のとおり全国の施設名称を学習データとして作成した統計言語モデルであるため、学習データ中での相対的な出現頻度の低い語彙はトライグラム確率に基づいて算出される言語尤度が低くなるので認識されにくい傾向がある。この結果、第1言語モデルを用いた認識結果は、「国際家具(こくさいかぐ)」に誤認識したとする。
一方、第2言語モデルに対する認識結果は、文字列「go,ku,sa,ri,ka,gu」であったとする。これは、第2言語モデルが前述のとおり神奈川県の施設名称を学習データとして作成した統計言語モデルであるため、第2言語モデルの学習データの総数が第1言語モデルの学習データの総数よりも大幅に少なく、第2言語モデルにおける学習データ全体に対する「碁鎖家具」の相対的な出現頻度が第1言語モデルにおける出現頻度よりも大きくなり、言語尤度が高くなるためである。
このように、ステップST5として、認識部2は第1言語モデルに基づいた認識結果の文字列であるTxt(1)=「ko,ku,sa,i,ka,gu」、および第2言語モデルに基づいた認識結果の文字列であるTxt(2)=「go,ku,sa,ri,ka,gu」を取得する。
次に、ステップST6として文字列照合部6は第1言語モデルを用いた認識結果の文字列である「ko,ku,sa,i,ka,gu」、および第2言語モデルを用いた認識結果の文字列である「go,ku,sa,ri,ka,gu」に対して、文字列辞書を用いて照合処理を行い、文字列照合スコアが最も高い文字列を文字列照合スコアと共に出力する。
上述した文字列に対する照合処理を具体的に説明すると、第1言語モデルを用いた認識結果の文字列である「ko,ku,sa,i,ka,gu」を構成する6個の音節のうち「国産家具センター」の音節列「ko,ku,saN,ka,gu,seN,taa」に、ko,ku,ka,guの4音節が含まれるため文字列照合スコアが「4」となり最も高い文字列照合スコアとなる。一方、第2言語モデルを用いた認識結果の文字列である「go,ku,sa,ri,ka,gu」を構成する6個の音節は「碁鎖家具店」の音節列「go,ku,sa,ri,ka,gu,teN」に全て含まれるため文字列照合スコアが「6」となり最も高い文字列照合スコアとなる。
この結果に基づいて、文字列照合部6は、第1言語モデルに対応する照合結果として文字列「国産家具センター」と文字列照合スコアS(1)=4、および第2言語モデルに対応する照合結果として文字列「碁鎖家具店」と文字列照合スコアS(2)=6を出力する。
ここでS(1)は第1言語モデルによる文字列Txt(1)に対する文字列照合スコア、S(2)は第2言語モデルによる文字列Txt(2)に対する文字列照合スコアである。文字列照合部6に入力された文字列Txt(1)および文字列Txt(2)に対して、同一基準で文字列照合スコアを算出しているため、算出した文字列照合スコアによって検索結果の確からしさを比較することができる。
次に、ステップST7として、検索結果決定部8は入力された文字列「国産家具センター」と文字列照合スコアS(1)=4、および文字列「碁鎖家具店」と文字列照合スコアS(2)=6を用いて、文字列照合スコアが高い順に文字列の並べ換えを行い、第1位が「碁鎖家具店」、第2位が「国産家具センター」である検索結果を出力する。このように、出現頻度の低い施設名称でも検索することが可能となる。
次に、入力音声の発話内容が神奈川県外の施設であった場合を例に説明を行う。
ステップST2の音声入力の発話内容が、例えば「那智の滝」である場合、ステップST3として「那智の滝」に対して音響分析が行われ、ステップST4として認識照合が行われる。さらに、ステップST5として認識部2は認識結果の文字列Txt(1)および文字列Txt(2)を取得する。ここで文字列は上記と同様に認識結果の発話を表わす音節列である。
ステップST5で取得される認識結果について具体的に説明する。第1言語モデルに対する認識結果は、文字列「na,ci,no,ta,ki」となる。但し文字列中の「,」は音節の区切りを表す記号である。これは、第1言語モデルが前述のとおり全国の施設名称を学習データとして作成した統計言語モデルであるため、「那智」や「滝」は学習データに比較的多く存在し、ステップST2の発話内容は正しく認識され、認識結果が「那智の滝」となったものとする。
一方、第2言語モデルに対する認識結果は、文字列「ma,ci,no,e,ki」となる。これは、第2言語モデルが前述のとおり神奈川県の施設名称を学習データとして作成した統計言語モデルであるため、認識語彙に「那智」が存在せず、認識結果が「町の駅」となったものとする。このように、ステップST5として、第1言語モデルに基づいた認識結果の文字列であるTxt(1)=「na,ci,no,ta,ki」、および第2言語モデルに基づいた認識結果の文字列であるTxt(2)=「ma,ci,no,e,ki」が取得される。
次に、ステップST6として文字列照合部6は第1言語モデルを用いた認識結果の文字列である「na,ci,no,ta,ki」、および第2言語モデルを用いた認識結果の文字列である「ma,ci,no,e,ki」に対して照合処理を行い、文字列照合スコアが最も高い文字列を文字列照合スコアと共に出力する。
上述した文字列に対する照合処理を具体的に説明すると、第1言語モデルを用いた認識結果の文字列である「na,ci,no,ta,ki」を構成する5個の音節のうち「那智の滝」の音節列「na,ci,no,ta,ki」に、全音節が含まれるため文字列照合スコアが「5」となり最も高い文字列照合スコアとなる。一方、第2言語モデルを用いた認識結果の文字列である「ma,ci,no,e,ki」を構成する6個の音節は「町場駅」の音節列「ma,ci,ba,e,ki」中にma,ci,e,kiの4音節が含まれるため文字列照合スコアが「4」となり最も高い文字列照合スコアとなる。
この結果に基づいて、文字列照合部6は、第1言語モデルに対応する照合結果として文字列「那智の滝」と文字列照合スコアS(1)=5、および第2言語モデルに対応する照合結果として文字列「町場駅」と文字列照合スコアS(2)=4を出力する。
次に、ステップST7として、検索結果決定部8は入力された文字列「那智の滝」と文字列照合スコアS(1)=5、および文字列「町場駅」と文字列照合スコアS(2)=4を用いて、文字列照合スコアが高い順に文字列の並べ換えを行い、第1位が「那智の滝」、第2位が「町場駅」である検索結果を出力する。このように、第2言語モデル内に存在しない施設名称に対しても精度よく検索することができる。
以上のように、この実施の形態1によれば、第1言語モデルおよび第2言語モデルそれぞれに対応する認識結果である文字列を取得する認識部2と、文字列辞書を参照して認識部2が取得した文字列の文字列照合スコアを算出する文字列照合部6と、文字列照合スコアに基づいて文字列の並べ替えを行って検索結果を決定する検索結果決定部8とを備えるように構成したので、学習データが異なる複数個の言語モデルを用いて認識処理を行った場合にも比較可能な文字列照合スコアを得ることができ、検索精度を向上させることができる。
なお、上述した実施の形態1では、2個の言語モデルを用いる例を示したが、3個以上の言語モデルを用いることも可能である。例えば、上述した第1言語モデルおよび第2言語モデルに加えて、例えば東京都の施設名称を学習データとした第3言語モデルを作成して用いるように構成してもよい。
また、上述した実施の形態1では、文字列照合部6が転置ファイルを用いた照合方式を用いる構成を示したが、文字列を入力として照合スコアを算出する任意の方式を用いるように構成してもよい。例えば、文字列のDPマッチングを照合方式として用いることができる。
なお、上述した実施の形態1において、第1言語モデル記憶部3および第2言語モデル記憶部4に1つの認識部2を割り当てる構成を示したが、各言語モデルにそれぞれ異なる認識部を割り当てるように構成してもよい。
実施の形態2.
図4は、この発明の実施の形態2の音声検索装置の構成を示すブロック図である。
実施の形態2の音声検索装置100aは、認識部2aが認識結果である文字列に加えて、当該文字列の音響尤度および言語尤度を検索結果決定部8aに出力する。検索結果決定部8aは文字列照合スコアに加え、音響尤度および言語尤度を用いて検索結果を決定する。
以下では、実施の形態1による音声検索装置100の構成要素と同一または相当する部分には、図1で使用した符号と同一の符号を付して説明を省略または簡略化する。
認識部2aは、実施の形態1と同様に認識照合処理を行い、各言語モデルについて認識スコアが最も高い認識結果を取得し、認識結果である文字列を文字列照合部6に出力する。ここで文字列は、実施の形態1と同様に認識結果の発音を表わす音節列とする。
さらに認識部2aは、第1言語モデルに対する認識照合処理の過程で算出した認識結果の文字列に対する音響尤度および言語尤度、および第2言語モデルに対する認識照合処理の過程で算出した認識結果の文字列に対する音響尤度および言語尤度を検索結果決定部8aに出力する。
検索結果決定部8aは、実施の形態1で示した文字列照合スコアに加え、認識部2aから出力された文字列に対する言語尤度と音響尤度の3つの値のうち、少なくとも2個以上の値を加重和し、総合スコアを算出する。算出した総合スコアの高い順に認識結果の文字列を並び替え、総合スコア上位から順に1以上の文字列を検索結果として出力する。
より詳細に説明すると、検索結果決定部8aは、文字列照合部6から出力された第1言語モデルに対する文字列照合スコアS(1)と第2言語モデルに対する文字列照合スコアS(2)、第1言語モデルの認識結果に対する音響尤度Sa(1)と言語尤度Sg(1)、および第2言語モデルの認識結果に対する音響尤度Sa(2)と言語尤度Sg(2)を入力とし、以下に示す式(1)を用いて総合スコアST(i)を算出する。
ST(i)=S(i)+wa*Sa(i)+wg*Sg(i) ・・・(1)
式(1)において、この実施の形態2の例ではi=1または2であり、ST(1)は第1言語モデルに対応する検索結果の総合スコア、ST(2)は第2言語モデルに対応する検索結果の総合スコアである。また、waおよびwgは事前に定めた0以上の定数である。さらにwaまたはwgのどちらか一方は0であっても良いが、wa,wgともには0でない値を設定する。このように式(1)に基づいて総合スコアST(i)を算出し、さらに総合スコアの高い順に認識結果の文字列を並び替え、総合スコア上位から順に1以上の文字列を検索結果として出力する。
次に、実施の形態2の音声検索装置100aの動作について図5を参照しながら説明する。図5は、この発明の実施の形態2による音声検索装置の動作を示すフローチャートである。なお、実施の形態1による音声検索装置と同一のステップには図3で使用した符号と同一の符号を付し、説明を省略または簡略化する。
実施の形態1と同様にステップST1からステップST4の処理が行われると、認識部2aは認識結果が最も高い認識結果である文字列を取得すると共に、ステップST4の認識照合の過程で算出された第1言語モデルの文字列に対する音響尤度Sa(1)および言語尤度Sg(1)、第2言語モデルの文字列に対する音響尤度Sa(2)および言語尤度Sg(2)を取得する(ステップST11)。なお、ステップST11で取得された文字列は文字列照合部6に出力され、音響尤度Sa(i)および言語尤度Sg(i)は検索結果決定部8aに出力される。
文字列照合部6は、ステップST11で取得された認識結果の文字列に対して照合処理を行い、文字列照合スコアが最も高い文字列を文字列照合スコアと共に出力する(ステップST6)。次に検索結果決定部8aは、ステップST11で取得された第1言語モデルに対する音響尤度Sa(1)および言語尤度Sg(1)と、第2言語モデルに対する音響尤度Sa(2)および言語尤度Sg(2)とを用いて総合スコアST(i)を算出する(ステップST12)。さらに検索結果決定部8aは、ステップST6で出力された文字列およびステップST12で算出された総合スコアST(i)(ST(1),ST(2))を用いて、総合スコアST(i)が高い順に文字列を並び換えて検索結果を決定して出力し(ステップST13)、処理を終了する。
以上のように、この実施の形態2によれば、認識結果が最も高い認識結果である文字列を取得すると共に、各言語モデルの文字列に対する音響尤度Sa(i)および言語尤度Sg(i)を取得する認識部2aと、取得した音響尤度Sa(i)および言語尤度Sg(i)の値を加味して算出した総合スコアST(i)を用いて検索結果を決定する検索結果決定部8aとを備えるように構成したので、音声認識結果の確からしさを反映することができ、検索精度を向上させることができる。
実施の形態3.
図6は、この発明の実施の形態3の音声検索装置の構成を示すブロック図である。
実施の形態3の音声検索装置100bは、実施の形態2で示した音声検索装置100aと比較して、第2言語モデル記憶部4のみを備え、第1言語モデル記憶部3を備えていない。そのため、第1言語モデルを用いた認識処理は外部認識装置200を用いて行う。
以下では、実施の形態2による音声検索装置100aの構成要素と同一または相当する部分には、図4で使用した符号と同一の符号を付して説明を省略または簡略化する。
外部認識装置200は、例えば高い計算能力を備えたサーバなどにより構成可能であり、第1言語モデル記憶部201に記憶された第1言語モデルと、音響モデル記憶部202に記憶された音響モデルとを用いて認識照合することにより、音響分析部1から入力された特徴ベクトルの時系列に最も近い文字列を取得する。取得した認識スコアが最も高い認識結果である文字列を音声検索装置100bの文字列照合部6a、当該文字列の音響尤度および言語尤度を音声検索装置100bの検索結果決定部8bに出力する。
なお、第1言語モデル記憶部201および音響モデル記憶部202は、例えば実施の形態1および実施の形態2で示した第1言語モデル記憶部3および音響モデル記憶部5と同一の言語モデルおよび音響モデルを記憶している。
認識部2aは、第2言語モデル記憶部4に記憶された第2言語モデルと、音響モデル記憶部5に記憶された音響モデルとを用いて認識照合することにより、音響分析部1から入力された特徴ベクトルの時系列に最も近い文字列を取得する。取得した認識スコアが最も高い認識結果である文字列を音声検索装置100bの文字列照合部6a、音響尤度および言語尤度を音声検索装置100bの検索結果決定部8bに出力する。
文字列照合部6aは、文字列辞書記憶部7に記憶された文字列辞書を参照し、認識部2aから出力された認識結果の文字列および外部認識装置200から出力された認識結果の文字列に対して照合処理を行う。認識結果の文字列ごとに、文字列照合スコアが最も高い名称を文字列照合スコアと共に、検索結果決定部8bに出力する。
検索結果決定部8bは、文字列照合部6aから出力された文字列照合スコアに加え、認識部2aおよび外部認識装置200から出力された2つの文字列に対する音響尤度Sa(i)と言語尤度Sg(i)の3つの値のうち、少なくとも2個以上の値を加重和し、総合スコアST(i)を算出する。算出した総合スコアの高い順に認識結果の文字列を並び替え、総合スコア上位から順に1以上の文字列を検索結果として出力する。
次に、実施の形態3の音声検索装置100bの動作について図7を参照しながら説明する。図7は、この発明の実施の形態3による音声検索装置および外部認識装置の動作を示すフローチャートである。なお、実施の形態2による音声検索装置と同一のステップには図5で使用した符号と同一の符号を付し、説明を省略または簡略化する。
音響検索装置100bは、第2言語モデルおよび文字列辞書を作成し、第2言語モデル記憶部4および文字列辞書記憶部7に記憶する(ステップST21)。なお、外部認識装置200が参照する第1言語モデルはあらかじめ作成されているものとする。次に、音響検索装置100bに音声入力が行われると(ステップST2)、音響分析部1が入力音声の音響分析を行い、特徴ベクトルの時系列に変換する(ステップST3)。変換された特徴ベクトルの時系列は認識部2aおよび外部認識装置200に出力される。
認識部2aは、ステップST3で変換された特徴ベクトルの時系列に対して、第2言語モデルおよび音響モデルを用いて認識照合を行い、認識スコアを算出する(ステップST22)。認識部2aは、ステップST22で算出した認識スコアを参照し、第2言語モデルについて認識スコアが最も高い認識結果である文字列を取得すると共に、ステップST22の認識照合の過程で算出された第2言語モデルの文字列に対する音響尤度Sa(2)および言語尤度Sg(2)を取得する(ステップST23)。なお、ステップST23で取得された文字列は文字列照合部6aに出力され、音響尤度Sa(2)および言語尤度Sg(2)は検索結果決定部8bに出力される。
ステップST22およびステップST23の処理と並列的に、外部認識装置200はステップST3で変換された特徴ベクトルの時系列に対して、第1言語モデルおよび音響モデルを用いて認識照合を行い、認識スコアを算出する(ステップST31)。外部認識装置200は、ステップST31で算出した認識スコアを参照し、第1言語モデルについて認識スコアが最も高い認識結果である文字列を取得すると共に、ステップST31の認識照合の過程で算出された第1言語モデルの文字列に対する音響尤度Sa(1)および言語尤度Sg(1)を取得する(ステップST32)。なお、ステップST32で取得された文字列は文字列照合部6aに出力され、音響尤度Sa(1)および言語尤度Sg(1)は検索結果決定部8bに出力される。
文字列照合部6aは、ステップST23で取得した文字列およびステップST32で取得した文字列に対して照合処理を行い、文字列照合スコアが最も高い文字列を文字列照合スコアと共に検索結果決定部8bに出力する(ステップST25)。検索結果決定部8bはステップST23で取得された第2言語モデルに対する音響尤度Sa(2)および言語尤度Sg(2)と、ステップST32で取得された第1言語モデルに対する音響尤度Sa(1)および言語尤度Sg(1)とを用いて総合スコアST(i)(ST(1),ST(2)を算出する(ステップST26)。さらに検索結果決定部8bは、ステップST25で出力された文字列およびステップST26で算出された総合スコアST(i)を用いて、総合スコアST(i)が高い順に文字列を並び換えて検索結果を決定して出力し(ステップST13)、処理を終了する。
以上のように、この実施の形態3によれば、一部の言語モデルに対する認識処理を外部認識装置200において行うように構成したので、外部認識装置を例えば計算能力の高いサーバなどに備えることにより、音声検索装置100はより高速に認識処理を実行することが可能になる。
なお、上述した実施の形態3では、2個の言語モデルを用い、1つの言語モデルの文字列に対して外部認識装置200において認識処理を行う例を示したが、3個以上の言語モデルを用いることも可能であり、外部認識装置において少なくとも1以上の言語モデルの文字列に対して認識処理を実行するように構成すればよい。
実施の形態4.
図8は、この発明の実施の形態4の音声検索装置の構成を示すブロック図である。
実施の形態4の音声検索装置100cは、実施の形態3で示した音声検索装置100bと比較して、音響尤度計算部9、および上述した音響モデルとは異なる新たな音響モデルを記憶した高精度音響モデル記憶部10を追加して設けている。
以下では、実施の形態3による音声検索装置100bの構成要素と同一または相当する部分には、図6で使用した符号と同一の符号を付して説明を省略または簡略化する。
認識部2bは、第2言語モデル記憶部4に記憶された第2言語モデルと、音響モデル記憶部5に記憶された音響モデルとを用いて認識照合することにより、音響分析部1から入力された特徴ベクトルの時系列に最も近い文字列を取得する。取得した認識スコアが最も高い認識結果である文字列を音声検索装置100cの文字列照合部6a、言語尤度を音声検索装置100cの検索結果決定部8cに出力する。
外部認識装置200aは、第1言語モデル記憶部201に記憶された第1言語モデルと、音響モデル記憶部202に記憶された音響モデルとを用いて認識照合することにより、音響分析部1から入力された特徴ベクトルの時系列に最も近い文字列を取得する。取得した認識スコアが最も高い認識結果である文字列を音声検索装置100cの文字列照合部6a、当該文字列の言語尤度を音声検索装置100cの検索結果決定部8cに出力する。
音響尤度計算部9は、音響分析部1から入力される特徴ベクトルの時系列、認識部2bから入力される認識結果の文字列、および外部認識装置200aから入力される認識結果の文字列に基づいて、高精度音響モデル記憶部10に記憶された高精度音響モデルを用いて、例えばビタビアルゴリズムによって音響パターン照合を行い、認識部2bから出力された認識結果の文字列および外部認識装置200aから出力された認識結果の文字列に対する照合音響尤度を算出する。算出した照合音響尤度は検索結果決定部8cに出力される。
高精度音響モデル記憶部10は、実施の形態1から実施の形態3で示した音響モデル記憶部5が記憶する音響モデルよりも精密で認識精度の高い音響モデルを記憶する。例えば、音響モデル記憶部5が記憶する音響モデルとしてモノフォンまたはダイフォン音素をモデル化した音響モデルを記憶する場合、高精度音響モデル記憶部10は前後の音素の違いを考慮したトライフォン音素をモデル化した音響モデルを記憶するものとする。トライフォンの場合、「朝(/asa/)」の第2番目の音素「/s/」と、「石(/isi/)」の第2番目の音素「/s/」とでは、前後の音素が異なるので異なる音響モデルでモデル化することになり、これによって認識精度が向上することが知られている。
ただし、音響モデルの種類が増加するため、音響尤度計算部9が高精度音響モデル記憶部10を参照して音響パターンを照合する際の演算量が増加する。しかし、音響尤度計算部9における照合対象は認識部2bから入力された認識結果の文字列および外部認識装置200aから出力された認識結果の文字列に含まれる語彙に限定されるため、処理量の増加を抑制することができる。
検索結果決定部8cは、文字列照合部6aから出力された文字列照合スコアに加え、認識部2bおよび外部認識装置200aから出力された2つの文字列に対する言語尤度Sg(i)と、音響尤度計算部9から出力された2つの文字列に対する照合音響尤度Sa(i)とのうち、少なくとも2個以上の値を加重和し、総合スコアST(i)を算出する。算出した総合スコアST(i)の高い順に認識結果の文字列を並び替え、総合スコア上位から順に1以上の文字列を検索結果として出力する。
次に、実施の形態4の音声検索装置100cの動作について図9を参照しながら説明する。図9は、この発明の実施の形態4による音声検索装置および外部認識装置の動作を示すフローチャートである。なお、実施の形態3による音声検索装置と同一のステップには図7で使用した符号と同一の符号を付し、説明を省略または簡略化する。
実施の形態3と同様にステップST21、ステップST2およびステップST3の処理が行われると、ステップST3において変換された特徴ベクトルの時系列は認識部2bおよび外部認識装置200aに加えて音響尤度計算部9に出力される。
認識部2bはステップST22およびステップST23の処理を行い、ステップST23で取得した文字列を文字列照合部6aに出力し、言語尤度Sg(2)を検索結果決定部8cに出力する。一方、外部認識装置200aはステップST31およびステップST32の処理を行い、ステップST32で取得した文字列を文字列照合部6aに出力され、言語尤度Sg(1)は検索結果決定部8cに出力する。
音響尤度計算部9は、ステップST3で変換された特徴ベクトルの時系列、ステップST23で取得された文字列およびステップST32で取得された文字列に基づいて、高精度音響モデル記憶部10に記憶された高精度音響モデルを用いて音響パターン照合を行い、照合音響尤度Sa(i)を算出する(ステップST43)。次に、文字列照合部6aは、ステップST23で取得した文字列およびステップST32で取得した文字列に対して照合処理を行い、文字列照合スコアが最も高い文字列を文字列照合スコアと共に検索結果決定部8cに出力する(ステップST25)。
検索結果決定部8cは、ステップST23で算出された第2言語モデルに対する言語尤度Sg(2)、ステップST32で算出された第1言語モデルに対する言語尤度Sg(1)、およびステップST43で算出された照合音響尤度Sa(i)を用いて総合スコアST(i)を算出する(ステップST44)。さらに検索結果決定部8cは、ステップST25で出力された文字列およびステップST41で算出された総合スコアST(i)を用いて、総合スコアST(i)が高い順に文字列を並び換えて検索結果として出力し(ステップST13)、処理を終了する。
以上のように、この実施の形態4によれば、認識部2bが参照する音響モデルよりも認識精度の高い音響モデルを用いて照合音響尤度Sa(i)を算出する音響尤度計算部9を備えるように構成したので、検索結果決定部8bにおける音響尤度の比較をより正確に行うことができ、検索精度を向上させることができる。
なお、上述した実施の形態4では、認識部2bが参照する音響モデル記憶部5に記憶された音響モデルと、外部認識装置200aが参照する音響モデル記憶部202に記憶された音響モデルとが同一である場合を示したが、それぞれ異なる音響モデルを参照するように構成しても良い。認識部2bが参照する音響モデルと外部認識装置200aが参照する音響モデルとが異なっても、音響尤度計算部9において照合音響尤度を再度算出するため、認識部2bによる認識結果の文字列に対する音響尤度と、外部認識装置200aによる認識結果の文字列に対する音響尤度とが厳密に比較可能になるためである。
また、上述した実施の形態4では、外部認識装置200aを用いる構成を示したが、音声検索装置100c内の認識部2bが第1言語モデル記憶部を参照して認識処理を行ってもよいし、音声検索装置100c内に新たな認識手段を設け、当該認識手段が第1言語モデル記憶部を参照して認識処理を行うように構成してもよい。
なお、上述した実施の形態4では、外部認識装置200aを用いる構成を示したが、外部認識装置を用いることなく、音声検索装置内で全ての認識処理を行う構成にも適用可能である。
なお、上述した実施の形態2から実施の形態4では、2個の言語モデルを用いる例を示したが、3個以上の言語モデルを用いることも可能である。
また、上述した実施の形態1から実施の形態4において、複数の言語モデルを2以上のグループに振り分け、2以上のグループそれぞれに対して認識部2,2a,2bによる認識処理を割り当てるように構成してもよい。これは認識処理を複数の音声認識エンジン(認識部)に割り当てて並列に認識処理を行うことを意味する。これにより、認識処理を高速に行うことができる。また、実施の形態4の図8で示したように、強力なCPUパワーを持つ外部認識装置が使用可能になる。
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
以上のように、この発明に係る音声検索装置および音声検索方法は、音声認識機能を備えた種々の機器に適用可能であり、出現頻度の低い文字列の入力が行われた場合にも、精度良く最適な音声認識結果を提供することができる。
1 音響分析部、2,2a,2b 認識部、3 第1言語モデル記憶部、4 第2言語モデル記憶部、5 音響モデル記憶部、6,6a 文字列照合部、7 文字列辞書記憶部、8,8a,8b,8c 検索結果決定部、9 音響尤度計算部、10 高精度音響モデル記憶部、100,100a,100b,100c 音声検索装置、200 外部認識装置、201 第1言語モデル記憶部、202 音響モデル記憶部。

Claims (6)

  1. 音響モデルおよび学習データの異なる複数の言語モデルを参照して音響尤度と言語尤度に重み付けして求めた認識スコアを用いて入力音声の音声認識を行い、前記複数の言語モデルごとに認識文字列の音響尤度および言語尤度を取得する認識部と、
    音声検索の対象となる検索対象語彙の文字列を示す情報を蓄積した文字列辞書を記憶する文字列辞書記憶部と、
    前記認識部が取得した前記複数の言語モデルごとの認識文字列と、前記文字列辞書に蓄積された検索対象語彙の文字列とを照合し、前記検索対象語彙の文字列に対する前記認識文字列の一致度を示す文字列照合スコアを算出し、前記認識文字列それぞれについて最も文字列照合スコアが高い検索対象語彙の文字列および当該文字列照合スコアを取得する文字列照合部と、
    前記文字列照合部が取得した前記文字列照合スコア、前記認識部が取得した音響尤度および言語尤度のうち、2以上の値の加重和として総合スコアを算出し、算出した総合スコアが高い順に1以上の検索対象語彙を検索結果として出力する検索結果決定部とを備えた音声検索装置。
  2. 前記認識部が参照する前記音響モデルよりも認識精度の高い高精度音響モデルを参照して、前記認識部が取得した前記複数の言語モデルごとの認識文字列と、前記入力音声との音響パターン照合を行い、照合音響尤度を算出する音響尤度計算部を備え、
    前記認識部は、前記認識文字列の言語尤度を取得し、
    前記検索結果決定部は、前記文字列照合部が取得した文字列照合スコア、前記音響尤度計算部が算出した照合音響尤度および前記認識部が取得した言語尤度のうち、2以上の値の加重和として総合スコアを算出し、算出した総合スコアが高い順に1以上の検索対象語彙を検索結果として出力することを特徴とする請求項1記載の音声検索装置。
  3. 前記複数の言語モデルを2以上のグループに振り分け、前記2以上のグループそれぞれに対して前記認識部による認識処理を割り当てることを特徴とする請求項1記載の音声検索装置。
  4. 音響モデルおよび少なくとも1以上の言語モデルを参照して音響尤度と言語尤度に重み付けして求めた認識スコアを用いて入力音声の音声認識を行い、前記言語モデルごとに認識文字列の音響尤度および言語尤度を取得する認識部と、
    音声検索の対象となる検索対象語彙の文字列を示す情報を蓄積した文字列辞書を記憶する文字列辞書記憶部と、
    外部装置において音響モデルおよび前記認識部が参照した言語モデルと学習データが異なる言語モデルを参照して前記入力音声の音声認識を行って得られた外部認識文字列を取得し、取得した外部認識文字列および前記認識部が取得した認識文字列と、前記文字列辞書に蓄積された検索対象語彙の文字列とを照合し、前記検索対象語彙の文字列に対する前記外部認識文字列および前記認識文字列の一致度を示す文字列照合スコアを算出し、前記外部認識文字列および前記認識文字列それぞれについて最も文字列照合スコアが高い検索対象語彙の文字列および当該文字列照合スコアを取得する文字列照合部と、
    前記文字列照合部が取得した前記文字列照合スコア、前記認識部が取得した前記認識文字列の音響尤度および言語尤度、および前記外部装置から取得した前記外部認識文字列の音響尤度および言語尤度のうち、2以上の値の加重和として総合スコアを算出し、算出した総合スコアが高い順に1以上の検索対象語彙を検索結果として出力する検索結果決定部とを備えた音声検索装置。
  5. 前記認識部が参照する前記音響モデルよりも認識精度の高い高精度音響モデルを参照して、前記認識部が取得した認識文字列および外部装置が取得した外部認識文字列と、前記入力音声との音響パターン照合を行い、照合音響尤度を算出する音響尤度計算部を備え、
    前記認識部は、前記認識文字列の言語尤度を取得し、
    前記検索結果決定部は、前記文字列照合部が取得した文字列照合スコア、前記音響尤度計算部が算出した照合音響尤度、前記認識部が取得した前記認識文字列の言語尤度、および前記外部装置から取得した前記外部認識文字列の言語尤度のうち、2以上の値の加重和として総合スコアを算出し、算出した総合スコアが高い順に1以上の検索対象語彙を検索結果として出力することを特徴とする請求項4記載の音声検索装置。
  6. 認識手段が、音響モデルおよび学習データの異なる複数の言語モデルを参照して音響尤度と言語尤度に重み付けして求めた認識スコアを用いて入力音声の音声認識を行い、前記複数の言語モデルごとに認識文字列の音響尤度および言語尤度を取得するステップと、
    文字列照合手段が、前記複数の言語モデルごとの認識文字列と、文字列辞書の蓄積された音声検索の対象となる検索対象語彙の文字列とを照合し、前記検索対象語彙の文字列に対する前記認識文字列の一致度を示す文字列照合スコアを算出し、前記認識文字列それぞれについて最も文字列照合スコアが高い検索対象語彙の文字列および当該文字列照合スコアを取得するステップと、
    検索結果決定手段が、前記文字列照合スコア、前記音響尤度および言語尤度のうち、2以上の値の加重和として総合スコアを算出し、算出した総合スコアが高い順に1以上の検索対象語彙を検索結果として出力するステップとを備えた音声検索方法。
JP2015561105A 2014-02-06 2014-02-06 音声検索装置および音声検索方法 Expired - Fee Related JP6188831B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/052775 WO2015118645A1 (ja) 2014-02-06 2014-02-06 音声検索装置および音声検索方法

Publications (2)

Publication Number Publication Date
JPWO2015118645A1 JPWO2015118645A1 (ja) 2017-03-23
JP6188831B2 true JP6188831B2 (ja) 2017-08-30

Family

ID=53777478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015561105A Expired - Fee Related JP6188831B2 (ja) 2014-02-06 2014-02-06 音声検索装置および音声検索方法

Country Status (5)

Country Link
US (1) US20160336007A1 (ja)
JP (1) JP6188831B2 (ja)
CN (1) CN105981099A (ja)
DE (1) DE112014006343T5 (ja)
WO (1) WO2015118645A1 (ja)

Families Citing this family (141)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR20250004158A (ko) 2013-02-07 2025-01-07 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
HK1220268A1 (zh) 2013-06-09 2017-04-28 苹果公司 用於實現跨數字助理的兩個或更多個實例的會話持續性的設備、方法、和圖形用戶界面
US10791216B2 (en) 2013-08-06 2020-09-29 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US20170154546A1 (en) * 2014-08-21 2017-06-01 Jobu Productions Lexical dialect analysis system
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
RU2610241C2 (ru) * 2015-03-19 2017-02-08 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10325590B2 (en) * 2015-06-26 2019-06-18 Intel Corporation Language model modification for local speech recognition systems using remote sources
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US12223282B2 (en) 2016-06-09 2025-02-11 Apple Inc. Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US12197817B2 (en) 2016-06-11 2025-01-14 Apple Inc. Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10403268B2 (en) * 2016-09-08 2019-09-03 Intel IP Corporation Method and system of automatic speech recognition using posterior confidence scores
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10217458B2 (en) * 2016-09-23 2019-02-26 Intel Corporation Technologies for improved keyword spotting
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
JP6532619B2 (ja) * 2017-01-18 2019-06-19 三菱電機株式会社 音声認識装置
CN107767713A (zh) * 2017-03-17 2018-03-06 青岛陶知电子科技有限公司 一种集成语音操作功能的智能教学系统
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
EP3596625A1 (en) * 2017-05-11 2020-01-22 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. Multi-modal interfaces
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN109145309B (zh) * 2017-06-16 2022-11-01 北京搜狗科技发展有限公司 一种实时语音翻译的方法、及用于实时语音翻译的装置
CN107526826B (zh) * 2017-08-31 2021-09-17 百度在线网络技术(北京)有限公司 语音搜索处理方法、装置及服务器
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
CN109840062B (zh) * 2017-11-28 2022-10-28 株式会社东芝 输入辅助装置以及记录介质
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US11393476B2 (en) * 2018-08-23 2022-07-19 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
KR20200059703A (ko) * 2018-11-21 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN111583906B (zh) * 2019-02-18 2023-08-15 中国移动通信有限公司研究院 一种语音会话的角色识别方法、装置及终端
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. User activity shortcut suggestions
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US12301635B2 (en) 2020-05-11 2025-05-13 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
CN111710337B (zh) * 2020-06-16 2023-07-07 睿云联(厦门)网络通讯技术有限公司 语音数据的处理方法、装置、计算机可读介质及电子设备
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN113129870B (zh) * 2021-03-23 2022-03-25 北京百度网讯科技有限公司 语音识别模型的训练方法、装置、设备和存储介质
US20240331687A1 (en) * 2023-03-30 2024-10-03 International Business Machines Corporation Insertion error reduction with confidence score-based word filtering

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1575031A3 (en) * 2002-05-15 2010-08-11 Pioneer Corporation Voice recognition apparatus
US7191130B1 (en) * 2002-09-27 2007-03-13 Nuance Communications Method and system for automatically optimizing recognition configuration parameters for speech recognition systems
JP5277704B2 (ja) * 2008-04-24 2013-08-28 トヨタ自動車株式会社 音声認識装置及びこれを用いる車両システム
JPWO2010128560A1 (ja) * 2009-05-08 2012-11-01 パイオニア株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
WO2011052412A1 (ja) * 2009-10-28 2011-05-05 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体
KR20120113717A (ko) * 2009-12-04 2012-10-15 소니 주식회사 검색 장치, 검색 방법, 및 프로그램
CN101887725A (zh) * 2010-04-30 2010-11-17 中国科学院声学研究所 一种基于音素混淆网络的音素后验概率计算方法
JP5610197B2 (ja) * 2010-05-25 2014-10-22 ソニー株式会社 検索装置、検索方法、及び、プログラム
JP5660441B2 (ja) * 2010-09-22 2015-01-28 独立行政法人情報通信研究機構 音声認識装置、音声認識方法、及びプログラム
KR101218332B1 (ko) * 2011-05-23 2013-01-21 휴텍 주식회사 하이브리드 방식의 음성인식을 통한 문자 입력 방법 및 장치, 그리고 이를 위한 하이브리드 방식 음성인식을 통한 문자입력 프로그램을 기록한 컴퓨터로 판독가능한 기록매체
US9009041B2 (en) * 2011-07-26 2015-04-14 Nuance Communications, Inc. Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data
US8996372B1 (en) * 2012-10-30 2015-03-31 Amazon Technologies, Inc. Using adaptation data with cloud-based speech recognition
CN102982811B (zh) * 2012-11-24 2015-01-14 安徽科大讯飞信息科技股份有限公司 一种基于实时解码的语音端点检测方法
CN103236260B (zh) * 2013-03-29 2015-08-12 京东方科技集团股份有限公司 语音识别系统
JP5932869B2 (ja) * 2014-03-27 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム

Also Published As

Publication number Publication date
CN105981099A (zh) 2016-09-28
US20160336007A1 (en) 2016-11-17
WO2015118645A1 (ja) 2015-08-13
DE112014006343T5 (de) 2016-10-20
JPWO2015118645A1 (ja) 2017-03-23

Similar Documents

Publication Publication Date Title
JP6188831B2 (ja) 音声検索装置および音声検索方法
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
JP2543148B2 (ja) 音声認識装置を学習させる装置
CN105009206B (zh) 语音识别装置和语音识别方法
JP2004258658A (ja) 単語間音素情報を利用した連続音声認識方法および装置
JP2001242884A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2001249684A (ja) 音声認識装置および音声認識方法、並びに記録媒体
Manasa et al. Comparison of acoustical models of GMM-HMM based for speech recognition in Hindi using PocketSphinx
CN1741131B (zh) 一种非特定人孤立词语音识别方法
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
JP5004863B2 (ja) 音声検索装置および音声検索方法
JP2004177551A (ja) 音声認識用未知発話検出装置及び音声認識装置
Tian Data-driven approaches for automatic detection of syllable boundaries.
US20220005462A1 (en) Method and device for generating optimal language model using big data
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2938865B1 (ja) 音声認識装置
Xiao et al. Information retrieval methods for automatic speech recognition
JP3894419B2 (ja) 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4600705B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
Zhang et al. Keyword spotting based on syllable confusion network
JP2001147698A (ja) 音声認識用疑似単語生成方法及び音声認識装置
Hu et al. Exploring tonal variations via context-dependent tone models.
Wang et al. Handling OOVWords in Mandarin Spoken Term Detection with an Hierarchical n‐Gram Language Model

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170621

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170801

R150 Certificate of patent or registration of utility model

Ref document number: 6188831

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees