JP2007156107A - Speech recognition apparatus and method - Google Patents
Speech recognition apparatus and method Download PDFInfo
- Publication number
- JP2007156107A JP2007156107A JP2005351308A JP2005351308A JP2007156107A JP 2007156107 A JP2007156107 A JP 2007156107A JP 2005351308 A JP2005351308 A JP 2005351308A JP 2005351308 A JP2005351308 A JP 2005351308A JP 2007156107 A JP2007156107 A JP 2007156107A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- recognition result
- history
- result
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】 音声認識結果における誤認識が繰り返されることを回避する。
【解決手段】 音声入力部201から入力された音声に対し、音響処理部202〜探索部204によって音声認識を行い、その複数の認識結果を認識スコアとともに出力する。認識結果選択部205では認識スコアの高い順に認識結果の所定数を選択し、該選択された所定数の認識結果を認識結果出力部209で出力する際に、最高順位の認識結果を認識結果履歴208に保持しておく。このとき、現在の最高順位の認識結果が、認識結果履歴208に保持された前回の履歴と一致する場合、当該認識結果の順位を下げて出力することによって、同じ誤認識が繰り返されることを防ぐ。
【選択図】 図2PROBLEM TO BE SOLVED: To avoid repeated erroneous recognition in a speech recognition result.
SOLUTION: A voice input from a voice input unit 201 is subjected to voice recognition by an acoustic processing unit 202 to a search unit 204, and a plurality of recognition results are output together with a recognition score. The recognition result selection unit 205 selects a predetermined number of recognition results in descending order of recognition score, and when the recognition result output unit 209 outputs the selected predetermined number of recognition results, the recognition result history of the highest rank is displayed. It is held at 208. At this time, when the current highest-ranked recognition result matches the previous history held in the recognition-result history 208, the same erroneous recognition is prevented from being repeated by lowering the rank of the recognition result and outputting it. .
[Selection] Figure 2
Description
本発明は、音声認識を行ってその認識結果を出力する音声認識装置およびその方法に関する。 The present invention relates to a speech recognition apparatus and method for performing speech recognition and outputting the recognition result.
近年の音声認識技術の向上により、音声による操作を可能とする機器が実用化されている。音声認識技術においては、誤った認識結果を出力した場合にどのような対処を行うか、という課題がある。 With recent improvements in voice recognition technology, devices that enable voice operation have been put into practical use. In the speech recognition technology, there is a problem of what to do when an erroneous recognition result is output.
この課題に対して、同じ認識誤りを繰り返さないように構成された音声認識装置が、例えば特許文献1および特許文献2に開示されている。
For this problem, for example, Patent Literature 1 and
特許文献1に開示された音声認識装置は、認識結果の正誤を使用者が入力する手段と、使用者が誤認識と判定した回数を認識候補ごとに記憶する手段とを備える。そして、誤認識回数が所定回数を越えた認識候補については、最大出力候補数(以下、N)以内での出力を省略する。ただし、省略された認識候補のスコアが所定の順位以内の場合は、(N+1)番目以降に出力する。 The speech recognition apparatus disclosed in Patent Literature 1 includes means for a user to input the correctness / incorrectness of the recognition result, and means for storing the number of times the user has determined that the recognition result is incorrect for each recognition candidate. And about the recognition candidate in which the frequency | count of misrecognition exceeded predetermined number, the output within the maximum output candidate number (henceforth, N) is abbreviate | omitted. However, if the score of the omitted recognition candidate is within a predetermined rank, it is output after the (N + 1) th.
また、特許文献2に開示された音声認識装置は、以下のような制御を行う。すなわち、音声認識結果を報知してから認識結果の確定処理までの間に再入力があり、再入力音声が前回の認識結果と同じ所定のカテゴリに属する場合、前回の認識結果と再入力音声の認識結果が同一とみなされれば、その結果を除外して認識結果を決定する。例えば、「東京都 大田区 昭和島」という音声入力に対して、認識結果が「東京都 大田区 城南島」と出力された場合、再入力時に「東京都 大田区 城南島」という認識結果が出力されないように、認識辞書の変更あるいは認識結果の後処理を実施する。これにより、同じ誤認識が繰り返されてしまうことが回避される。
Further, the speech recognition apparatus disclosed in
特許文献2で開示されている音声認識装置は、使用者が音声認識結果に対して正誤判定を行う必要がないという点で、特許文献1に開示された音声認識装置よりも使用者にとって利便性が高い。
特許文献1に開示された音声認識装置では、認識結果に対して使用者が正誤判定を行うための操作が必要であり、音声認識結果を確定するまでの操作回数が多いという第1の問題がある。また、誤認識回数が所定回数を越えた認識候補は、当該候補が正しく認識された場合でも、N+1番目以降に出力されてしまう。したがって、認識結果の表示領域がN個以下に制約されている場合は、当該候補を探すために利用者は画面の切り替えあるいはスクロールなど何らかの表示を変える操作が必要になるという第2の問題がある。 The speech recognition device disclosed in Patent Document 1 requires a first operation for the user to make a correct / incorrect determination on the recognition result, and there is a large number of operations until the speech recognition result is confirmed. is there. In addition, recognition candidates for which the number of erroneous recognitions exceeds a predetermined number are output after the (N + 1) th even when the candidates are correctly recognized. Therefore, when the display area of the recognition result is limited to N or less, there is a second problem that the user needs to change the display such as screen switching or scrolling in order to search for the candidate. .
また、特許文献2に開示された音声認識装置では、認識結果の正誤判定の操作が不要であるため、特許文献1に係る第1の問題は解消される。しかしながら、再入力時に過去の認識結果と同じ認識候補を除外するため、一度誤認識した認識候補は、所定時間内(確定処理までの期間)の再入力では出力されないという問題がある。例えば、出力された認識結果が正しいのにもかかわらず、使用者が誤って再入力操作を行ってしまった場合には、所定時間の間、所望の認識結果を得られなくなる。
In addition, since the speech recognition apparatus disclosed in
また、別の課題として、認識結果の全てではなく一部の訂正を行う発声に対応する必要がある。一般に、人と人との会話では以下に示すように、聞き取りまちがいを訂正する場合、同じ内容を繰り返すのではなく、間違った部分のみ訂正することが多い。 Further, as another problem, it is necessary to deal with utterances that correct some but not all of the recognition results. In general, in the conversation between people, as shown below, when correcting a mistake, there are many cases where only the wrong part is corrected instead of repeating the same contents.
Aさん:「住所はどちらですか?」
Bさん:「東京都 大田区 下丸子 です。」
Aさん:「東京都 大田区 新丸子 ですね?」
Bさん:「いいえ、下丸子 です」
このように、人同士の会話においては、間違えた部分(上記例では「下丸子」)のみを相手に伝える場面が多い。音声認識装置においても同様に、訂正のための発声を行う際に、認識結果の正しい部分(上記例では「東京都 大田区」)を含めて再度発声を行うことは、使用者にとって面倒である。先の人同士の会話と同様の手順で認識結果を訂正できる方が、使用者にとっては利便性が良い。
Mr. A: "Where is your address?"
Mr. B: “It is Shimomaruko, Ota-ku, Tokyo.”
Mr. A: “You ’re Shinmaruko, Ota-ku, Tokyo?”
Mr. B: “No, this is Shimomaruko”
In this way, in a conversation between people, there are many scenes where only the wrong part ("Shimomaruko" in the above example) is transmitted to the other party. Similarly, in the speech recognition apparatus, it is troublesome for the user to utter again including the correct part of the recognition result (in the above example, “Ota-ku, Tokyo”) when uttering for correction. . It is more convenient for the user that the recognition result can be corrected in the same procedure as the conversation between the previous persons.
本発明は、上述した課題を解決するためになされたものであり、誤認識の訂正を効率良く行う音声認識装置およびその方法を提供することを目的とする。 The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a speech recognition apparatus and method for efficiently correcting erroneous recognition.
上記目的を達成するための一手段として、本発明の音声認識装置は以下の構成を備える。 As a means for achieving the above object, a speech recognition apparatus of the present invention comprises the following arrangement.
すなわち、音声情報を受信する受信手段と、前記音声情報を認識して複数の認識結果をその認識スコアとともに取得する音声認識手段と、前記複数の認識結果から、少なくともその認識スコアが最も高い認識結果を含む複数の認識結果を選択する選択手段と、前記選択された認識結果を出力する出力手段と、前記選択された認識結果のうち、前記認識スコアが最も高い認識結果を履歴として保持する履歴手段と、を有し、前記選択手段は、前記音声認識手段によって取得された認識スコアが最も高い認識結果が、前記履歴手段に保持された履歴の少なくとも一部と一致する場合、当該認識結果の順位を下げることを特徴とする。 That is, receiving means for receiving voice information, voice recognition means for recognizing the voice information and acquiring a plurality of recognition results together with the recognition score, and a recognition result having the highest recognition score from the plurality of recognition results Selection means for selecting a plurality of recognition results including: output means for outputting the selected recognition results; history means for holding the recognition result having the highest recognition score among the selected recognition results as history And when the recognition result having the highest recognition score acquired by the voice recognition means matches at least a part of the history held in the history means, the ranking of the recognition results It is characterized by lowering.
また、上記目的を達成するための一手段として、本発明の音声認識方法は以下の構成を備える。 As a means for achieving the above object, the speech recognition method of the present invention comprises the following arrangement.
すなわち、音声情報を受信する受信ステップと、前記音声情報を認識して複数の認識結果をその認識スコアとともに取得する音声認識ステップと、前記複数の認識結果から、少なくともその認識スコアが最も高い認識結果を含む複数の認識結果を選択する選択ステップと、前記選択された認識結果を出力する出力ステップと、前記選択された認識結果のうち、前記認識スコアが最も高い認識結果を履歴として保持する履歴ステップと、を有し、前記選択ステップは、前記音声認識ステップによって取得された認識スコアが最も高い認識結果が、前記履歴手段に保持された履歴の少なくとも一部と一致する場合、当該認識結果の順位を下げることを特徴とする。 That is, a reception step of receiving voice information, a voice recognition step of recognizing the voice information and acquiring a plurality of recognition results together with the recognition score, and a recognition result having the highest recognition score from at least the plurality of recognition results A selection step for selecting a plurality of recognition results including: an output step for outputting the selected recognition result; and a history step for holding the recognition result having the highest recognition score among the selected recognition results as a history. And when the recognition result with the highest recognition score acquired by the speech recognition step matches at least a part of the history held in the history means, the ranking of the recognition result It is characterized by lowering.
上記構成からなる本発明によれば、最高順位の認識結果が直前の発声の認識結果と一致する場合は、当該認識結果は誤認識であると判断してその順位を最高位よりも低い順位に下げることによって、誤認識の訂正を効率良く行うことができる。 According to the present invention having the above configuration, when the recognition result of the highest order matches the recognition result of the immediately preceding utterance, the recognition result is determined to be erroneous recognition, and the order is set to a lower rank than the highest order. By lowering, erroneous recognition can be corrected efficiently.
以下、添付の図面を参照して、本発明をその好適な実施形態に基づいて詳細に説明する。なお、以下の各実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。 Hereinafter, the present invention will be described in detail based on preferred embodiments with reference to the accompanying drawings. The configurations shown in the following embodiments are merely examples, and the present invention is not limited to the illustrated configurations.
<第1実施形態>
図1は、本発明に係る一実施形態である音声認識装置の概略構成を示すブロック図である。図1において、101は中央処理装置(CPU)、102は制御メモリ(ROM)、103はメモリ(RAM)である。104はキーボードやボタンなどの操作キー、105は液晶などの表示装置、106はマイクなどの音声入力装置、107はスピーカなどの音声出力装置である。108はデータバスであり、上記各構成間における信号の授受を仲介する。
<First Embodiment>
FIG. 1 is a block diagram showing a schematic configuration of a speech recognition apparatus according to an embodiment of the present invention. In FIG. 1, 101 is a central processing unit (CPU), 102 is a control memory (ROM), and 103 is a memory (RAM).
本実施形態の音声認識装置を実現するための制御プログラムやその制御プログラムで用いるデータは、ROM102に記録される。これらの制御プログラムやデータは、CPU101の制御のもと、データバス108を通じて適宜RAM103に取り込まれ、CPU101によって実行される。実行した結果、すなわち音声認識の結果は表示装置105で表示されるか、あるいは音声合成を利用してスピーカ107から出力される。
A control program for realizing the speech recognition apparatus of the present embodiment and data used in the control program are recorded in the
図2は、本実施形態における音声認識装置の機能構成を示すブロック図である。図2において、201は音声入力部、202は音響処理部、203は尤度計算部、204は探索部、205は認識結果出力部である。また、206は音響モデル、207は言語モデル、208は認識結果履歴である。
FIG. 2 is a block diagram illustrating a functional configuration of the speech recognition apparatus according to the present embodiment. In FIG. 2, 201 is a voice input unit, 202 is an acoustic processing unit, 203 is a likelihood calculation unit, 204 is a search unit, and 205 is a recognition result output unit.
本装置に入力された入力音声信号は音声入力部201によって取り込まれ、音声区間が検出される。音響処理部202は、検出した区間の音声信号から、例えばLPCケプストラムやメルケプストラム係数などの音声認識に用いる特徴量を抽出する。尤度計算部203では、抽出した特徴量と音響モデル206を参照して、探索部204で実行する探索処理に必要な音響モデル(HMM)の尤度を計算する。
The input voice signal input to this apparatus is captured by the
探索部204は、認識対象語を列挙した認識辞書や受理可能な文法を記録した言語モデル207、音響モデル206から音声認識に必要なHMM系列を構成する。そして、尤度計算部203で計算した各HMMの尤度を参照して、Viterbiアルゴリズム等を用いてHMM系列ごとに尤度の累積値(認識スコア)を求める。すなわち、認識スコアが高いほど、認識の確信度が高いことを示す。ここではHMMを用いた例を説明したが、DPを用いる等既存の他の方法を用いてもかまわない。その際における認識スコアについても、ここでは認識の確信度が高い場合にその値が高くなるものであるとする。
The
認識結果選択部205では認識スコアの良いものから順に、所定のN個の認識結果を選択する。この選択の際には、直前の認識結果を記憶している認識結果履歴208を参照して、選択する認識結果の順位を決定するが、この詳細については後述する。認識結果出力部209は認識結果選択部205で決定した順位にしたがって、認識結果を所定の位置に表示する。
The recognition
以上のように構成される音声認識装置における、認識結果選択処理について、図3のフローチャートを用いて説明する。 The recognition result selection process in the speech recognition apparatus configured as described above will be described with reference to the flowchart of FIG.
認識結果選択部205では、スコアが1位となった認識結果と、認識結果履歴208に記憶されている直前の認識結果を比較する。そして、当該認識結果が記憶されている認識結果の全部あるいは一部と一致する場合(S101)、当該認識結果の順位をN位に下げる(S102)。この際、2位からN−1位の認識結果の順位をそれぞれ1つずつ上げる。ステップS101で直前の認識結果が記憶されていない場合あるいは当該認識結果が直前の認識結果とまったく一致しない場合には、順位の変更は行わない。
The recognition
そして、決定した順位にしたがって認識結果出力部209が認識結果をN個出力し(S103)、1位の認識結果を認識結果履歴部208に記憶し、認識結果履歴を更新する(S104)。
Then, according to the determined order, the recognition
以下、具体的な発声例を用いて、本発明の音声認識装置の動作を説明する。ここでは、本発明の音声認識装置が住所入力装置として機能する場合を例とする。 Hereinafter, the operation of the speech recognition apparatus of the present invention will be described using a specific utterance example. Here, a case where the voice recognition device of the present invention functions as an address input device is taken as an example.
まず、使用者が1回目の発声で「大田区 昭和島」と発声し、誤認識したので同一内容を発声しなおす場合について、図4を用いて説明する。この例では、出力する認識結果の個数NをN=3として説明する。 First, the case where the user utters “Ota Ward Showajima” in the first utterance and misrecognizes it, and utters the same content again will be described with reference to FIG. In this example, the number N of recognition results to be output is described as N = 3.
図4は、使用者の発声内容とその認識結果等を示した表である。図4において、列301は発声回数、列302は探索部204で求めた認識スコア順の認識結果、列303は認識結果履歴208に記憶されている直前の発声の1位の認識結果、列304は認識結果出力部205が出力する認識結果、である。また、行305は1回目の発声、行306は2回目の発声を示す。まず、行305に示す1回目の発声の場合、列301に示す使用者の発声内容「大田区 昭和島」に対して、列302示す認識スコアの上位3個が以下のように求まる。
FIG. 4 is a table showing the user's utterance contents and the recognition results. In FIG. 4,
1位:大田区 城南島
2位:大田区 昭和島
3位:大田区 京浜島
この場合、列303に示す直前の認識結果履歴がないため、認識結果選択部205では順位の変更を行わない(S101)。認識結果出力部209は列304に示すように、認識スコアの順に認識結果を出力し(S103)、出力した1位の認識結果「大田区 城南島」を認識結果履歴208に記憶する(S104)。
1st place: Ota-ku Jonanjima 2nd place: Ota-ku Showajima 3rd place: Ota-ku Keihinjima In this case, the recognition
すると、出力された認識結果の1位が実際の発声内容と異なるため、使用者は認識結果を訂正するために、行306に示すように2回目の「昭和島」を発声する。この2回目の発声に対し、列302に示す認識スコアの上位3個が以下のように求まる。
Then, since the first place of the output recognition result is different from the actual utterance content, the user utters “Showajima” for the second time as shown in
1位:城南島
2位:昭和島
3位:京浜島
このとき、一位の認識結果「城南島」が、列303に示す直前の認識結果「大田区 城南島」の一部「城南島」と一致する(S101)。したがって、認識結果選択部205は「城南島」の順位を3位に下げ、2位の「昭和島」を1位に、3位の「京浜島」を2位にそれぞれ繰り上げる(S102)。すると認識結果出力部209は列304に示すように、認識結果選択部205が変更した順位に従って認識結果を出力し(S103)、1位の認識結果として出力された「昭和島」を認識結果履歴208に記憶する(S104)。
1st place: Jonanjima 2nd place: Showajima 3rd place: Keihinjima At this time, the first recognition result "Jonanjima" is a part of the previous recognition result "Ota-ku Jonanjima" shown in
以上のように、認識結果が直前発声の認識結果の一部と一致した場合にはその順位を下げることによって、同じ認識誤り(この例では「城南島」)が繰り返されてしまうことを回避できる。 As described above, when the recognition result matches a part of the recognition result of the immediately preceding utterance, the same recognition error (in this example, “Jonanjima”) can be avoided by lowering the rank. .
以下、本実施形態の音声認識装置(住所入力装置)における認識結果の表示方法について、図5を用いて説明する。図5は、認識結果の表示例を示す図であり、認識結果出力部209によって1位の認識結果における「区部」,「町名」が、領域401,402にそれぞれ表示される。また同時に、1位〜3位の認識結果が、領域403,404,405にそれぞれ表示される。また、領域403〜405はマウスやキーボード等の操作キー104による選択が可能であり、選択された認識結果は領域401,402に反映される。
Hereinafter, the display method of the recognition result in the voice recognition device (address input device) of the present embodiment will be described with reference to FIG. FIG. 5 is a diagram showing a display example of the recognition result. The recognition
このような表示方法による、図4に示す音声入力例に対する表示の遷移を図6に示す。 FIG. 6 shows a display transition for the voice input example shown in FIG. 4 by such a display method.
図6において、500は1回目の発声が行われる前の表示例であり、全ての表示領域が無為である旨を示す。 In FIG. 6, 500 is a display example before the first utterance is performed, and indicates that all display areas are ineffective.
510は1回目の発声「大田区 昭和島」が行われ、行305に示す認識結果が表示された例を示している。すなわち、「大田区 昭和島」の発声に対して、認識結果選択部205で選択した1位の認識結果である「大田区 城南島」の「大田区」が領域511に、「城南島」が領域512に表示されている。また、この時得られた1位〜3位の認識結果が、領域513〜515に表示されている。
510 shows an example in which the first utterance “Ota Ward Showajima” is performed and the recognition result shown in the
520は2回目の発声「昭和島」を認識した時の表示例を示している。この場合、先に説明したように、「昭和島」という発声に対して、1位に「城南島」という認識結果が得られる。しかしながら、直前の認識結果である「大田区 城南島」と一部が一致するため(S101)、認識結果選択部205によって「城南島」の順位を3位に下げ、2位以下の認識結果である「昭和島」「京浜島」の順位を繰り上げる(S102)。したがって、認識結果出力部209は順位が繰り上がって1位になった「昭和島」を領域522に表示し、認識結果選択部205が決定した順位にしたがって、1位〜3位の認識結果を領域523〜525に出力する。
本実施形態では、表示された複数の認識結果から、使用者が所望する結果を選択することができる。例えば、表示例520の領域525に示すように「城南島」は認識結果選択部205によって降順され、3位の認識結果として表示されているが、これをマウス等の操作キー104で選択することができる。この選択後の表示は530のようになる。すなわち、使用者によって選択された「城南島」が、領域532に表示される。この場合、認識結果履歴208には使用者によって選択された認識結果「城南島」が記憶される。
In the present embodiment, a result desired by the user can be selected from a plurality of displayed recognition results. For example, as shown in the
上述したように本実施形態においては、認識結果が直前の認識結果の一部または全部と一致する場合、すなわち認識結果が誤認識であると判断した場合でも、当該認識結果がN位(本実施例ではN=3)として出力・表示される。したがって、認識結果の表示領域がN個分以上あれば、使用者が画面切り換え等の操作を行うことなく、当該認識結果を選択することができる。 As described above, in this embodiment, even when the recognition result matches a part or all of the previous recognition result, that is, even when it is determined that the recognition result is erroneous recognition, the recognition result is Nth (this embodiment In the example, N = 3) is output and displayed. Therefore, if there are N or more recognition result display areas, the user can select the recognition result without performing operations such as screen switching.
なお、本実施形態では、使用者が町名のみを訂正する場合について説明したが、本発明はもちろんこの例に限るものではなく、区部名のみあるいは区部名と町名の両方を訂正する場合にも適用可能である。すなわち、「大田区 昭和島」という発声に対して、「世田谷区 京浜島」という認識結果が1位に得られた場合に、区部名のみを訂正するために「大田区」と発声した場合にも、本実施形態と同様の手順が適用される。区名・町村名両方を訂正するために「大田区 昭和島」と発声した場合も同様である。 In addition, although this embodiment demonstrated the case where a user corrects only a town name, this invention is not restricted to this example of course, and when correcting only a ward name or both a ward name and a town name. Is also applicable. That is, when the recognition result “Keihamajima” in “Setagaya-ku” is obtained in the first place against the utterance “Ota-ku Showajima”, “Ota-ku” is used to correct only the ward name. Also, the same procedure as in the present embodiment is applied. The same is true if you say “Ota Ward Showajima” to correct both the ward name and the village name.
また、図3のステップS102において、得られた1位の認識結果が、直前の認識結果の全部あるいは一部と一致する場合に、当該認識結果の順位をN位(Nは音声認識装置が認識結果を出力する個数)にする例を説明した。しかしながら本発明はこの例に限るものではなく、1位であった認識結果を2位〜N位の任意の順位に変更するようにしても、同様の効果が得られる。 In addition, in step S102 in FIG. 3, when the obtained first-order recognition result matches all or part of the previous recognition result, the recognition result rank is ranked N (N is recognized by the speech recognition apparatus). The example of setting the number of results to be output) has been described. However, the present invention is not limited to this example, and the same effect can be obtained even if the recognition result that was first place is changed to an arbitrary order from the second place to the Nth place.
以上説明したように本実施形態によれば、同じ誤認識が繰り返して1位の認識結果として出力されることを防ぎ、かつ当該認識結果を1位以外の順位で出力する。したがって、もしも当該認識結果が正しい場合、すなわち誤認識であるという判断が誤っている場合に、使用者が当該認識結果を選択する余地が残されている。また、使用者は認識結果を訂正する際に、訂正したい部分のみを発声すれば良いので、使用者の利便性が向上する。 As described above, according to the present embodiment, the same erroneous recognition is prevented from being repeatedly output as the first recognition result, and the recognition results are output in a rank other than the first. Therefore, if the recognition result is correct, that is, if the determination that it is erroneous recognition is incorrect, there remains room for the user to select the recognition result. Further, when the user corrects the recognition result, only the part to be corrected needs to be uttered, so that the convenience for the user is improved.
<他の実施形態>
以上、実施形態例を詳述したが、本発明は例えば、システム、装置、方法、プログラム若しくは記憶媒体(記録媒体)等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
<Other embodiments>
Although the embodiment has been described in detail above, the present invention can take an embodiment as a system, apparatus, method, program, storage medium (recording medium), or the like. Specifically, the present invention may be applied to a system composed of a plurality of devices, or may be applied to an apparatus composed of a single device.
尚本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される。なお、この場合のプログラムとは、実施形態において図に示したフローチャートに対応したプログラムである。 In the present invention, a software program for realizing the functions of the above-described embodiments is supplied directly or remotely to a system or apparatus, and the computer of the system or apparatus reads and executes the supplied program code. Is also achieved. The program in this case is a program corresponding to the flowchart shown in the drawing in the embodiment.
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。 Accordingly, since the functions of the present invention are implemented by computer, the program code installed in the computer also implements the present invention. In other words, the present invention includes a computer program itself for realizing the functional processing of the present invention.
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。 In that case, as long as it has the function of a program, it may be in the form of object code, a program executed by an interpreter, script data supplied to the OS, or the like.
プログラムを供給するための記録媒体としては、以下に示す媒体がある。例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD-ROM、CD-R、CD-RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD-ROM,DVD-R)などである。 Recording media for supplying the program include the following media. For example, floppy disk, hard disk, optical disk, magneto-optical disk, MO, CD-ROM, CD-R, CD-RW, magnetic tape, nonvolatile memory card, ROM, DVD (DVD-ROM, DVD- R).
プログラムの供給方法としては、以下に示す方法も可能である。すなわち、クライアントコンピュータのブラウザからインターネットのホームページに接続し、そこから本発明のコンピュータプログラムそのもの(又は圧縮され自動インストール機能を含むファイル)をハードディスク等の記録媒体にダウンロードする。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。 As a program supply method, the following method is also possible. That is, the browser of the client computer is connected to a homepage on the Internet, and the computer program itself (or a compressed file including an automatic installation function) of the present invention is downloaded to a recording medium such as a hard disk. It can also be realized by dividing the program code constituting the program of the present invention into a plurality of files and downloading each file from a different homepage. That is, a WWW server that allows a plurality of users to download a program file for realizing the functional processing of the present invention on a computer is also included in the present invention.
また、本発明のプログラムを暗号化してCD-ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせることも可能である。すなわち該ユーザは、その鍵情報を使用することによって暗号化されたプログラムを実行し、コンピュータにインストールさせることができる。 In addition, the program of the present invention is encrypted, stored in a storage medium such as a CD-ROM, distributed to users, and key information for decryption is downloaded from a homepage via the Internet to users who have cleared predetermined conditions. It is also possible to make it. That is, the user can execute the encrypted program by using the key information and install it on the computer.
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される。さらに、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。 Further, the functions of the above-described embodiments are realized by the computer executing the read program. Furthermore, based on the instructions of the program, an OS or the like running on the computer performs part or all of the actual processing, and the functions of the above-described embodiments can also be realized by the processing.
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、実行されることによっても、前述した実施形態の機能が実現される。すなわち、該プログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行うことが可能である。 Further, the program read from the recording medium is written in a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, and then executed, so that the program of the above-described embodiment can be realized. Function is realized. That is, based on the instructions of the program, the CPU provided in the function expansion board or function expansion unit can perform part or all of the actual processing.
Claims (12)
前記音声情報を認識して複数の認識結果をその認識スコアとともに取得する音声認識手段と、
前記複数の認識結果から、少なくともその認識スコアが最も高い認識結果を含む複数の認識結果を選択する選択手段と、
前記選択された認識結果を出力する出力手段と、
前記選択された認識結果のうち、前記認識スコアが最も高い認識結果を履歴として保持する履歴手段と、を有し、
前記選択手段は、前記音声認識手段によって取得された認識スコアが最も高い認識結果が、前記履歴手段に保持された履歴の少なくとも一部と一致する場合、当該認識結果の順位を下げることを特徴とする音声認識装置。 Receiving means for receiving audio information;
Voice recognition means for recognizing the voice information and acquiring a plurality of recognition results together with the recognition score;
Selecting means for selecting a plurality of recognition results including at least the recognition result having the highest recognition score from the plurality of recognition results;
Output means for outputting the selected recognition result;
A history unit that holds the recognition result having the highest recognition score among the selected recognition results as a history, and
The selection means lowers the rank of the recognition result when the recognition result having the highest recognition score acquired by the voice recognition means matches at least a part of the history held in the history means. Voice recognition device.
前記出力手段は、前記操作者選択手段によって選択された認識結果を最高順位の認識結果として出力することを特徴とする請求項4記載の音声認識装置。 Furthermore, it has an operator selection means for selecting a recognition result according to an instruction from the operator among the recognition results displayed by the output means,
5. The speech recognition apparatus according to claim 4, wherein the output means outputs the recognition result selected by the operator selection means as the highest-order recognition result.
前記音声情報を認識して複数の認識結果をその認識スコアとともに取得する音声認識ステップと、
前記複数の認識結果から、少なくともその認識スコアが最も高い認識結果を含む複数の認識結果を選択する選択ステップと、
前記選択された認識結果を出力する出力ステップと、
前記選択された認識結果のうち、前記認識スコアが最も高い認識結果を履歴として保持する履歴ステップと、を有し、
前記選択ステップは、前記音声認識ステップによって取得された認識スコアが最も高い認識結果が、前記履歴手段に保持された履歴の少なくとも一部と一致する場合、当該認識結果の順位を下げることを特徴とする音声認識方法。 A receiving step for receiving audio information;
A speech recognition step of recognizing the speech information and obtaining a plurality of recognition results together with the recognition score;
A selection step of selecting a plurality of recognition results including at least the recognition result having the highest recognition score from the plurality of recognition results;
Outputting the selected recognition result; and
A history step of holding the recognition result having the highest recognition score among the selected recognition results as a history, and
The selection step lowers the rank of the recognition result when the recognition result having the highest recognition score acquired by the speech recognition step matches at least a part of the history held in the history means. Voice recognition method.
前記出力手段によって表示された前記認識結果のうち、操作者の指示に応じた認識結果を選択する操作者選択手段を更に有し、
前記出力手段は、前記操作者選択工程によって選択された認識結果を最高順位の認識結果として出力することを特徴とする請求項8記載の音声認識方法。 The output step displays the selected recognition result,
Of the recognition results displayed by the output means, further comprising an operator selection means for selecting a recognition result according to an instruction from the operator,
9. The speech recognition method according to claim 8, wherein the output means outputs the recognition result selected in the operator selection step as the highest-order recognition result.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005351308A JP2007156107A (en) | 2005-12-05 | 2005-12-05 | Speech recognition apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005351308A JP2007156107A (en) | 2005-12-05 | 2005-12-05 | Speech recognition apparatus and method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007156107A true JP2007156107A (en) | 2007-06-21 |
Family
ID=38240556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005351308A Withdrawn JP2007156107A (en) | 2005-12-05 | 2005-12-05 | Speech recognition apparatus and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007156107A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470638A (en) * | 2021-05-28 | 2021-10-01 | 荣耀终端有限公司 | Method for slot filling, chip, electronic device and readable storage medium |
-
2005
- 2005-12-05 JP JP2005351308A patent/JP2007156107A/en not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470638A (en) * | 2021-05-28 | 2021-10-01 | 荣耀终端有限公司 | Method for slot filling, chip, electronic device and readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7027985B2 (en) | Speech recognition method with a replace command | |
US6314397B1 (en) | Method and apparatus for propagating corrections in speech recognition software | |
US9640175B2 (en) | Pronunciation learning from user correction | |
KR101255402B1 (en) | Redictation 0f misrecognized words using a list of alternatives | |
JP4446312B2 (en) | Method and system for displaying a variable number of alternative words during speech recognition | |
JP5334178B2 (en) | Speech recognition apparatus and data update method | |
EP0965978A1 (en) | Non-interactive enrollment in speech recognition | |
US20020123894A1 (en) | Processing speech recognition errors in an embedded speech recognition system | |
JP2005331882A (en) | Voice recognition device, method, and program | |
JP6585112B2 (en) | Voice keyword detection apparatus and voice keyword detection method | |
KR20060037228A (en) | Methods, systems, and programs for speech recognition | |
EP1430474A1 (en) | Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word | |
US20200143799A1 (en) | Methods and apparatus for speech recognition using a garbage model | |
JP2008509431A (en) | Method for a system that performs an interactive conversation with a user | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
JP5160594B2 (en) | Speech recognition apparatus and speech recognition method | |
JP4966324B2 (en) | Speech translation apparatus and method | |
JP2014134640A (en) | Transcription device and program | |
US20030055642A1 (en) | Voice recognition apparatus and method | |
JP5396426B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JP4736478B2 (en) | Voice transcription support device, method and program thereof | |
JP4634156B2 (en) | Voice dialogue method and voice dialogue apparatus | |
JP2007156107A (en) | Speech recognition apparatus and method | |
JP2019144524A (en) | Word detection system, word detection method, and word detection program | |
JP2004029354A (en) | Speech recognition device, speech recognition method, and speech recognition program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20090303 |