JP2009104047A - Information processing method and information processing apparatus - Google Patents
Information processing method and information processing apparatus Download PDFInfo
- Publication number
- JP2009104047A JP2009104047A JP2007277587A JP2007277587A JP2009104047A JP 2009104047 A JP2009104047 A JP 2009104047A JP 2007277587 A JP2007277587 A JP 2007277587A JP 2007277587 A JP2007277587 A JP 2007277587A JP 2009104047 A JP2009104047 A JP 2009104047A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- recognition
- registered
- user
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 音声登録型音声認識において、音声登録時に音声を2回以上発声させる負担を負わせることなく、実行時の音声認識の精度を、登録時に2回以上発声した場合の精度に近づける。
【解決手段】 ユーザが発声した登録対象の音声を取得し、取得した登録対象の音声に対応する音声情報をメモリに登録し、別途ユーザが発声した認識対象の音声を、メモリに登録されている音声情報を用いて音声認識して1つ又は複数の認識結果を出力し、出力された1つ又は複数の認識結果の中から、ユーザが意図した認識結果を特定するとともに、特定された認識結果に対応する登録音声情報として、認識対象として発声された音声に対応する音声情報を登録する。
【選択図】 図2In speech registration type speech recognition, the accuracy of speech recognition at the time of execution is brought close to the accuracy at the time of utterance twice or more at the time of registration without incurring the burden of uttering speech twice or more at the time of speech registration.
SOLUTION: A registration target voice uttered by a user is acquired, voice information corresponding to the acquired registration target voice is registered in a memory, and a recognition target voice uttered by a user is separately registered in the memory. Speech recognition is performed using speech information, and one or a plurality of recognition results are output. A recognition result intended by the user is specified from the output one or more recognition results, and the specified recognition result As the registered voice information corresponding to, voice information corresponding to the voice uttered as a recognition target is registered.
[Selection] Figure 2
Description
本発明は、音声登録型の音声認識を行う情報処理方法に関する。 The present invention relates to an information processing method for performing speech registration type speech recognition.
音声認識は、認識可能な語彙を記述した文法に基づいて認識を行う方式の他に、あらかじめ発声した音声を一つまたは複数登録しておき、実行時には、入力音声と最も類似した登録音声を求める方式がある。後者は音声登録型音声認識と呼ぶ。例として、電話番号をダイヤルする代わりに、かける相手の名前を発声することで電話をかけることのできる電話機を考えてみる。発信先音声登録モードにおいて、「鈴木一郎」さんの電話番号“03−1XXX−XXXX”に対し、“イチロー”と発声した音声を対応付けて登録する。登録後は、発信モードで”イチロー”と発声することで、“03−1XXX−XXXX”に電話をかけることができるようになる。同様に、「○×歯科医院」の電話番号“045−2XX−XXXX”に対し、“ハイシャサン”と発声して音声を登録すれば、その後、“ハイシャサン”と発声するだけで、「○×歯科医院」に電話をかけることができる。登録する音声は好きな言葉でよい。 In speech recognition, in addition to a method of recognizing based on a grammar describing a recognizable vocabulary, one or a plurality of previously spoken voices are registered, and at the time of execution, a registered voice most similar to the input voice is obtained. There is a method. The latter is called voice registration type voice recognition. As an example, consider a telephone that can make a call by speaking the name of the person to call instead of dialing a telephone number. In the destination voice registration mode, “Ichiro” and the voice uttered are registered in association with the telephone number “03-1XXX-XXXX” of “Ichiro Suzuki”. After registration, the user can call “03-1XXX-XXXX” by saying “Ichiro” in the transmission mode. Similarly, if you register the voice by saying “Hi Sha san” to the telephone number “045-2XX-XXXX” of “○ × Dental Clinic”, then you can simply say “Hi Sha San” and “ You can call the clinic. You can use any language you like to register.
このような音声登録型音声認識を実現する一般的な方法は、次のようなものである。任意の音節列を受理可能な音声認識文法1を用意しておき、登録時の発声をこの音声認識文法1を用いて認識し、認識結果として音節列を出力する。この音節列を、対象となる電話番号と対応付けて実行用の音声認識文法2に登録する。発信モードでは、入力音声を音声認識文法2を用いて認識する。
前述の例では、音声登録時に、音声を1回だけ発声する場合を説明したが、これでは実行時の精度が十分に出ないという問題があり、音声を2回以上発声して登録するように設計することが多い。この設計によれば精度を向上することは可能だが、ユーザの負担が増えるという問題があった。 In the above example, the case where the voice is uttered only once at the time of voice registration has been described. However, there is a problem in that the accuracy at the time of execution is not sufficient, so that the voice is uttered twice or more and registered. Often designed. Although this design can improve accuracy, there is a problem that the burden on the user increases.
特許文献1では、実行時の第一の入力音声が認識不能、または誤認識であった場合に、ユーザが続けて言い直した第二の入力音声を登録音声として登録する方法を開示している。すなわち、第一の入力音声と第二の入力音声が類似している場合に、これが言い直しであると判断し、さらにユーザによる手動操作があった場合に、その手動操作で指示されたコマンドに対する登録音声として第一の音声を追加登録するというものである。このように、実行時の入力音声を登録音声として追加登録することで、その後の認識精度を向上させることができ、代わりに登録時は1回の発声で済ませることが可能になる。しかしこの方法では、認識誤りに対してユーザが同じ言葉を言い直すこと、さらに手動操作が入ることが前提になっている。この状況は確実に起こるものではなく、追加登録による効果が現れるかどうかは不確実である、という問題がある。
上記問題を解決するために、本発明に係る情報処理装置は、ユーザが発声した音声を取得する取得手段と、前記取得手段で取得した登録対象の音声に対応する音声情報を登録音声情報としてメモリに登録する登録手段と、前記取得手段で取得した認識対象の音声を、前記メモリに登録されている音声情報を用いて音声認識し、1つ又は複数の認識結果を出力する音声認識手段と、前記音声認識手段により出力された1つ又は複数の認識結果の中から、ユーザが意図した認識結果を特定する特定手段とを備え、前記登録手段は、前記特定手段によって特定された認識結果に対応する登録音声情報として、前記認識対象の音声に対応する音声情報を登録することを特徴とする。 In order to solve the above problems, an information processing apparatus according to the present invention includes an acquisition unit that acquires a voice uttered by a user, and a memory that stores voice information corresponding to the registration target voice acquired by the acquisition unit as registered voice information. A speech recognition means for recognizing the speech to be recognized acquired by the acquisition means using the speech information registered in the memory and outputting one or more recognition results; A specifying unit for specifying a recognition result intended by the user from one or a plurality of recognition results output by the voice recognition unit, and the registration unit corresponds to the recognition result specified by the specifying unit. Voice information corresponding to the voice to be recognized is registered as the registered voice information.
本発明によれば、音声登録時に、音声を2回以上発声させる負担を負わせることなく、実行時の音声認識の精度を、登録時に2回以上発声した場合の精度に近づけることが可能となる。 According to the present invention, at the time of voice registration, the accuracy of voice recognition at the time of execution can be made close to the accuracy when uttered twice or more at the time of registration without burdening the voice to be uttered twice or more. .
以下、添付図面を参照して本発明に係る実施の形態を詳細に説明する。ただし、この実施の形態に記載されている構成要素はあくまでも例示であり、本発明の範囲をそれらのみに限定する趣旨のものではない。 Embodiments according to the present invention will be described below in detail with reference to the accompanying drawings. However, the constituent elements described in this embodiment are merely examples, and are not intended to limit the scope of the present invention only to them.
以下、図面を参照して本発明の実施例1を詳細に説明する。本実施例では、本発明に係る情報処理装置の例として、図1の101のような携帯電話を操作するケースを挙げて説明する。携帯電話101は、液晶画面102を有し、キー103の操作と、マイク104からの音声入力による操作が可能である。
Hereinafter,
図2は、本実施例に係る携帯電話101の構成を表すブロック図である。同図において、201は音声入力部である。202は音声認識部である。203は音声認識部202が用いる音声認識文法保持部である。204は確認ダイアログをユーザに提示するか否かを判定する判定部である。205は、判定部204が確認ダイアログを提示すると判定した場合に不図示の表示画面や不図示の音声出力部等を介して確認ダイアログをユーザに提示し、ユーザからの入力を受け取る確認部である。206は、確認部205でのユーザの指示入力が終わった時に、音声入力部201を介して取得した音声を認識し、該音声に対応する音声情報として、音節系列を出力する音節認識部である。207は、音節認識部206が用いる音節認識文法保持部である。208は、音節認識部206が出力した音節系列を、登録音声情報として音声認識文法保持部203に登録する登録部である。
FIG. 2 is a block diagram illustrating the configuration of the
図3は、本実施例に係る携帯電話101のハードウエア構成を示す構成図である。同図において、301はCPUであり、後述する携帯電話101の動作手順を実現するプログラムに従って動作する。302はRAMであり、上記プログラムの動作に必要な記憶領域を提供する。303はROMであり、上記プログラムの動作手順を実現するプログラムなどを保持する。304は図1の103に示すような各種ボタンである。305は図1の104に示すようなマイクである。306は図1の102に示すようなLCDである。307はバスである。
FIG. 3 is a configuration diagram illustrating a hardware configuration of the
本実施例では、電話番号のメモリ登録機能において、登録した電話番号に対応する音声を登録し、登録した音声で登録電話番号を呼び出すケースを説明する。 In this embodiment, a case will be described in which the voice corresponding to the registered telephone number is registered and the registered telephone number is called with the registered voice in the memory registration function of the telephone number.
まず、電話番号をメモリ登録する際の処理を、図4のフローチャートに沿って説明する。図6の601は、携帯電話の所定の操作で、メモリ登録画面を呼び出した場面を表している。まず、図6の601のように、登録する電話番号の入力を促し、電話番号をキー103を用いて入力させる(S401)。続いて、602のような画面で、その電話番号を呼び出す操作をするための登録音声の入力を促す。ユーザは、マイク104に向かって、登録対象となる登録音声を発声する(S402)。登録音声はどんな発声でもよい。ここでは、登録電話番号が友人の山田太郎氏のものだったとして、「タロークン」と発声したとする。この入力音声を音節認識部206で認識する(S403)。音節認識部206は音節認識文法保持部207の文法に基づいて認識処理を行う。この文法は、任意の音節列パターンを受理できるように記述されている。音声認識結果は、音節列の形で出力される。入力音声「タロークン」を正確に認識できた場合の認識結果の音節列は、”ta−roo−ku−n”となるが、音節列の認識は100%正確にできるとは限らず、”toa−reo−ku−n”のように正確な音節列とは異なる音節列が出力されることもある。この出力音節列を音声認識文法保持部203の音声認識文法に、登録する電話番号0901111XXXXと対応付けて登録し(S404)、図6の603のようなメッセージを表示する。同様にして、複数の電話番号と対応する音声を登録した結果の音声認識文法203の例が図9である。このように、登録音声の音節認識結果の音節列と対応する電話番号がペアになって登録される。右側には、参考として、どのような発声をしたかを示した。
First, a process for registering a telephone number in memory will be described with reference to the flowchart of FIG.
続いて、図5のフローチャートに沿って、メモリ登録された電話番号を、音声入力で呼び出して電話をかける場合の動作を説明する。図7の701は、携帯電話の所定の操作で、メモリ登録された電話番号を音声入力により呼び出して発信するための画面を呼び出した場面を表している。図7の701のように、音声入力を促し、音声入力させる(S501)。この認識対象である入力音声を音声認識部202で認識する(S502)。この音声認識は、音声認識文法保持部203の文法を用いて行う。本例では、図9が音声認識文法となる。音声認識結果は、表示制御手段によって、確信度付きN−bestとして表示画面に出力される。例えば、友人の山田太郎氏に電話をかけようとして、“タロークン”と音声入力した場合、認識結果は図10のような形で出力される。この認識結果の第一位候補が、第二位以下の候補に対して有意な差を持つかどうかを判定する(S503)。ここでは、確信度スコアの値が0.7以上であれば、有意な差であると判定するものとする。図10では、認識結果第一位の確信度スコアは0.75であるので、有意な差があると判定される。この場合は、第一位の電話番号が、ユーザが意図するものに一致すると判断し、その電話番号への発信操作を行う(S507)。図7の702は発信中の画面表示である。一方、認識結果が図11のような場合、第一位の確信度スコアが0.75以上ではないので、図8の802のような、N−bestリストによる確認ダイアログを表示する(S504)。ユーザは、所定のキー操作によって、この中から所望の電話番号を選択する(S505)。ここでは、2番目の電話番号を選択する。そして選択された電話番号への発信が行われる(S507)が、その前に、S506の処理が行われる。所望の電話番号がユーザによって選択されると、S501で発声された音声が、電話番号0901111XXXXに対応するものであることがわかる。そこで、この音声に対応する音声情報を、電話番号0901111XXXXに発信するための操作情報に対応する登録音声情報として追加登録する。登録の方法は、図4のS403、S404の手順と同じである。この結果、音声認識文法保持部203の音声認識文法は、図12のようになり、電話番号0901111XXXX(山田太郎氏の電話番号)に対して2種類の音節列が登録された状態になる。
Next, the operation for making a call by calling a telephone number registered in the memory by voice input will be described with reference to the flowchart of FIG.
以上のようにして、登録音声の登録操作は1回で済むが、電話番号呼び出し時の入力音声を利用して、2つ以上の登録音声が登録された状態を作ることができ、その後の認識率を向上させることができる。 As described above, the registration operation of the registered voice can be performed only once. However, it is possible to create a state in which two or more registered voices are registered by using the input voice at the time of calling the telephone number. The rate can be improved.
実施例1では、図5のS503において、第一位候補の確信度スコアが所定の値より大きいか否かで、有意な差であるか否かを判定していた。これに対し、第一位候補の確信度スコアと第二位候補の確信度スコアが所定の差以上であることをもって、有意な差であると判定するようにしてもよい。 In Example 1, in S503 of FIG. 5, it is determined whether or not there is a significant difference depending on whether or not the certainty score of the first candidate is greater than a predetermined value. On the other hand, when the certainty score of the first candidate and the certainty score of the second candidate are equal to or greater than a predetermined difference, it may be determined that the difference is significant.
上記実施例では、認識結果の確信度スコアによって、図8の802のダイアログを表示するか否かの判定を行っていた。これに対し、ダイアログを表示する前に第一位の結果に対する動作を実行し、それがユーザによって取り消された場合に、N−bestダイアログを表示するようにしてもよい。例えば、図13のように、1301で入力音声に対する認識結果の第一位の電話番号に発信した直後に、1303のように所定の操作で取り消しが行われた場合に、1304のようにダイアログ表示するようにしてもよい。
In the above embodiment, whether or not to display the
上記実施例では、携帯電話でメモリ登録された電話番号を音声で呼び出す例を示したが、本発明は、さまざまなデバイス、さまざまなシステムの音声操作に適用できることは言うまでもない。音声登録型音声認識を用いたユーザインタフェースであれば、例えば、複写機の音声操作、デジタルカメラの音声操作、デジタルテレビの音声操作などにも適用可能である。また、表示を伴わない音声のみの対話でもよい。例えば、コールセンターの音声対話で、
Sys:製品についてのお問い合わせは”1”を、故障修理のお問い合わせは”2”を押 してください。
User:[“2”を押下]
Sys:コンパクトカメラの場合は”1”を・・・。
User:[“1”を押下]
Sys:担当者におつなぎ致します。ここまでの操作を登録する場合は、登録する音声を 発声してください。登録しない場合は、そのままお待ちください。
User:カメラコショー
Sys:音声を登録しました。担当者におつなぎ致します。
のようにして、コンパクトカメラの故障修理の問合せをする操作情報に対応する登録音声を登録したとする。その後、このユーザが再度このコールセンターに電話した場合、以下のような対話を行う。
(1)’Sys:製品についてのお問い合わせは”1”を、故障修理のお問い合わせは”2”を押してください。
(2)’User:カメラコショー
(3)’Sys:カメラコショーでよろしいですか?
(4)’User:はい
(5)’Sys:担当者におつなぎ致します。
(3)’のような確認とそれに対する(4)’の返答により、(2)’の入力音声が、コンパクトカメラの故障修理問い合わせ担当者へつなぐことを意図したものであると判断される。そこで、(5)’で担当者へつなぐ処理を実行するとともに、(2)’の入力音声を登録音声として登録する。なお、(3)’のシステム音声は、「カメラコショー」の部分には(6)の登録音声が用いられ、「でよろしいですか」という音声データと結合することにより生成される。
In the above-described embodiment, an example has been shown in which a telephone number registered in a memory in a mobile phone is called by voice. However, it goes without saying that the present invention can be applied to voice operations of various devices and various systems. A user interface using voice registration type voice recognition can be applied to voice operation of a copying machine, voice operation of a digital camera, voice operation of a digital television, and the like. In addition, an audio-only dialogue without display may be used. For example, in a call center voice conversation,
Sys: Press “1” for product inquiries and “2” for fault repair inquiries.
User: [Press “2”]
Sys: “1” for a compact camera.
User: [Press “1”]
Sys: I will connect to the person in charge. When registering the operations up to this point, say the sound you want to register. If you do not register, please wait.
User: Camera show Sys: Voice has been registered. I will connect you to the person in charge.
As described above, it is assumed that the registered voice corresponding to the operation information for inquiring about the repair of the compact camera is registered. Thereafter, when the user calls the call center again, the following dialogue is performed.
(1) 'Sys: Press "1" for product inquiries and "2" for fault repair inquiries.
(2) 'User: Camera show (3)' Sys: Are you sure you want to have a camera show?
(4) 'User: Yes (5)' Sys: We will connect to the person in charge.
(3) Based on the confirmation such as' and the response to (4) ', it is determined that the input voice of (2)' is intended to be connected to the person in charge of inquiring the repair of the compact camera. Therefore, the process of connecting to the person in charge at (5) ′ is executed, and the input voice of (2) ′ is registered as a registered voice. The system voice of (3) ′ is generated by combining the voice data “Are you sure?” With the registered voice of (6) used for the “camera show” part.
上記実施例では、登録時の入力音声を音節認識部206で認識した結果の音節列を登録部208によって音声認識文法保持部203に登録し、実行時の入力音声を、音声認識文法保持部203の音声認識文法を用いて音声認識部202で認識するようにしていた。これに対し、図14のような構成でも実施可能である。同図において、1401は音声入力部である。1402は音節認識部である。1403は音節認識部1402が用いる音節認識文法保持部である。1404は評価部である。1405は確認ダイアログをユーザに提示するか否かを判定する判定部である。1406は、判定部1405が確認ダイアログを提示すると判定した場合に確認ダイアログをユーザに提示し、ユーザからの入力を受け取る確認部である。1407は音節列保持部である。1408は、確認部1406でのユーザの指示入力が終わった時に、音節認識部1402が出力した音節系列を、音節列保持部1407に登録する登録部である。
In the above embodiment, the syllable string obtained as a result of recognition of the input speech at the time of registration by the
入力音声は、登録時も実行時も、音節認識部1402で認識される。音節認識部1402は認識結果として音節列を出力する。登録音声は、音節列の形で、音節列保持部1407に登録される。登録内容は、図9と同様である。評価部1404は、音節認識部1402が出力した音節列と、音節列保持部1407に登録された各音節列の一致度を計算し、一致度の高い順に一致度スコアとともにN−best出力する。判定部1405は、実施例1と同様、N−best出力の内容に基づいて動作する。
The input speech is recognized by the syllable recognition unit 1402 at the time of registration and execution. The syllable recognition unit 1402 outputs a syllable string as a recognition result. The registered speech is registered in the syllable
上記実施例では、音声認識結果に対して、確認ダイアログや確認メッセージによってユーザが意図したものを特定するようにしていたが、本発明はこのような形態に限られない。音声認識結果の第一候補を実行し、ユーザがその実行結果に対して取り消し処理を行わなかった場合に認識結果の第一候補がユーザの意図に合っていたと判断し、その第一候補に対する登録音声として、入力音声の情報を登録するよう構成しても構わない。 In the above-described embodiment, the user's intention is specified by the confirmation dialog or the confirmation message for the voice recognition result, but the present invention is not limited to such a form. When the first candidate of the speech recognition result is executed and the user does not cancel the execution result, it is determined that the first candidate of the recognition result matches the user's intention, and the first candidate is registered. Information of input voice may be registered as voice.
上記実施例では、音声情報として、音節列を登録する例をあげて説明したが、本発明はこれに限られず、音声データを登録する構成としても構わない。その場合、まず、ユーザが発声した登録対象の音声に対応する音声データをメモリに記憶しておき、別途ユーザが発声した認識対象の音声と、メモリに記憶された音声データとを比較して1つ又は複数の認識結果を出力する。そして、出力された1つ又は複数の認識結果の中から、ユーザが意図した認識結果を特定し、特定した認識結果に対応する登録音声情報として、認識対象の音声に対応する音声データをメモリに登録するといった構成となる。 In the above-described embodiment, an example in which a syllable string is registered as voice information has been described. However, the present invention is not limited to this, and voice data may be registered. In that case, first, the voice data corresponding to the registration target voice uttered by the user is stored in the memory, and the recognition target voice uttered separately by the user is compared with the voice data stored in the memory. One or more recognition results are output. Then, the recognition result intended by the user is identified from the output one or more recognition results, and the speech data corresponding to the speech to be recognized is stored in the memory as registered speech information corresponding to the identified recognition result. It is configured to register.
なお、本発明の目的は次のようにしても達成される。即ち、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行する。このようにしても目的が達成されることは言うまでもない。 The object of the present invention can also be achieved as follows. That is, a storage medium in which a program code of software that realizes the functions of the above-described embodiments is recorded is supplied to the system or apparatus. Then, the computer (or CPU or MPU) of the system or apparatus reads and executes the program code stored in the storage medium. It goes without saying that the purpose is achieved even in this way.
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。 In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the storage medium storing the program code constitutes the present invention.
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。 As a storage medium for supplying the program code, for example, a flexible disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a magnetic tape, a nonvolatile memory card, a ROM, or the like can be used.
また、本発明に係る実施の形態は、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される場合に限られない。例えば、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, the embodiments according to the present invention are not limited to the case where the functions of the above-described embodiments are realized by executing the program code read by the computer. For example, an OS (operating system) running on a computer performs part or all of actual processing based on an instruction of the program code, and the functions of the above-described embodiments may be realized by the processing. Needless to say, it is included.
さらに、本発明に係る実施形態の機能は次のようにしても実現される。即ち、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれる。そして、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行う。この処理により前述した実施形態の機能が実現されることは言うまでもない。 Furthermore, the functions of the embodiment according to the present invention are also realized as follows. That is, the program code read from the storage medium is written in a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer. Then, based on the instruction of the program code, the CPU provided in the function expansion board or function expansion unit performs part or all of the actual processing. It goes without saying that the functions of the above-described embodiments are realized by this processing.
201 音声入力部
202 音声認識部
203 音声認識文法保持部
204 判定部
205 確認部
206 音節認識部
207 音節認識文法保持部
208 登録部
DESCRIPTION OF
Claims (12)
前記取得手段で取得した登録対象の音声に対応する音声情報を登録音声情報としてメモリに登録する登録手段と、
前記取得手段で取得した認識対象の音声を、前記メモリに登録されている登録音声情報を用いて音声認識し、1つ又は複数の認識結果を出力する音声認識手段
と、
前記音声認識手段により出力された1つ又は複数の認識結果の中から、ユーザが意図した認識結果を特定する特定手段とを備え、
前記登録手段は、前記特定手段によって特定された認識結果に対応する登録音声情報として、前記認識対象の音声に対応する音声情報を登録することを特徴とする情報処理装置。 Obtaining means for obtaining the voice uttered by the user;
Registration means for registering voice information corresponding to the registration target voice acquired by the acquisition means in a memory as registered voice information;
Speech recognition means for recognizing speech to be recognized acquired by the acquisition means using registered voice information registered in the memory, and outputting one or a plurality of recognition results;
A specifying unit for specifying a recognition result intended by the user from one or a plurality of recognition results output by the voice recognition unit;
The information processing apparatus according to claim 1, wherein the registration unit registers voice information corresponding to the recognition target voice as registered voice information corresponding to the recognition result specified by the specifying unit.
前記音声認識手段は、前記認識結果として、前記音声情報に対応する操作情報を出力し、
前記特定手段は、認識結果として出力された1つ又は複数の操作情報の中から、ユーザが意図した操作情報を特定し、
前記登録手段は、前記特定手段によって特定された操作情報に対応する登録音声情報として、前記認識対象の音声に対応する音声情報を登録することを特徴とする請求項1記載の情報処理装置。 The registration unit registers voice information corresponding to the registration target voice in association with predetermined operation information as registered voice information,
The voice recognition means outputs operation information corresponding to the voice information as the recognition result,
The specifying unit specifies operation information intended by the user from one or more pieces of operation information output as a recognition result,
The information processing apparatus according to claim 1, wherein the registration unit registers voice information corresponding to the recognition target voice as registered voice information corresponding to the operation information specified by the specifying unit.
前記特定手段は、前記表示制御手段により表示された1つ又は複数の認識結果のうち、ユーザによって選択された認識結果を、ユーザが意図した認識結果として特定することを特徴とする請求項1に記載の情報処理装置。 Further comprising display control means for displaying one or more recognition results output by the voice recognition means on a display screen;
The identification unit identifies a recognition result selected by the user among one or more recognition results displayed by the display control unit as a recognition result intended by the user. The information processing apparatus described.
前記特定手段は、前記判定手段で確認ダイアログを出力すると判定された場合に、前記確認ダイアログに従ってユーザが選択した認識結果を、ユーザが意図した認識結果として特定することを特徴とする請求項1に記載の情報処理装置。 A determination means for determining whether or not to output a confirmation dialog for presenting the user with one or more recognition results output by the voice recognition means and selecting a recognition result intended by the user;
2. The identification unit according to claim 1, wherein when the determination unit determines to output a confirmation dialog, the identification unit identifies a recognition result selected by the user according to the confirmation dialog as a recognition result intended by the user. The information processing apparatus described.
前記判定手段は、前記認識結果の第一位候補の確信度が他の候補に対して有意な差がない場合に、前記確認ダイアログを出力すると判定することを特徴とする請求項4に記載の情報処理装置。 The voice recognition means outputs a recognition result with certainty,
5. The determination unit according to claim 4, wherein the determination unit determines to output the confirmation dialog when the certainty factor of the first candidate of the recognition result is not significantly different from other candidates. Information processing device.
前記判定手段は、前記実行手段によって実行された処理に対して、ユーザが取り消し操作を行った場合に、前記確認ダイアログを出力すると判定する特徴とする請求項4に記載の情報処理装置。 Execution means for executing processing corresponding to one of the recognition results output by the voice recognition means;
The information processing apparatus according to claim 4, wherein the determination unit determines to output the confirmation dialog when a user performs a cancel operation on the process executed by the execution unit.
前記特定手段は、前記実行手段によって実行された処理に対して、ユーザが取り消し操作を行わなかった場合に、前記実行手段によって実行された処理に対応する認識結果を、ユーザが意図した認識結果として特定することを特徴とする請求項1に記載の情報処理装置。 Execution means for executing processing corresponding to one of the recognition results output by the voice recognition means;
When the user does not cancel the process executed by the execution unit, the specifying unit sets a recognition result corresponding to the process executed by the execution unit as a recognition result intended by the user. The information processing apparatus according to claim 1, wherein the information processing apparatus is specified.
前記取得工程で取得した登録対象の音声に対応する音声情報を登録音声情報としてメモリに登録する第1の登録工程と、
前記取得工程で取得した認識対象の音声を、前記メモリに登録されている登録音声情報を用いて音声認識し、1つ又は複数の認識結果を出力する音声認識工程と、
前記音声認識工程で出力された1つ又は複数の認識結果の中から、ユーザが意図した認識結果を特定する特定工程と、
前記特定工程によって特定された認識結果に対応する登録音声情報として、前記認識対象音声に対応する音声情報をメモリに登録する第2の登録工程とを備えることを特徴とする情報処理方法。 An acquisition step of acquiring voice uttered by the user;
A first registration step of registering voice information corresponding to the voice to be registered acquired in the acquisition step in a memory as registered voice information;
A speech recognition step of recognizing the recognition target speech acquired in the acquisition step using registered speech information registered in the memory and outputting one or more recognition results;
A specifying step of specifying a recognition result intended by the user from one or a plurality of recognition results output in the voice recognition step;
An information processing method comprising: a second registration step of registering voice information corresponding to the recognition target voice in a memory as registered voice information corresponding to the recognition result specified by the specifying step.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007277587A JP2009104047A (en) | 2007-10-25 | 2007-10-25 | Information processing method and information processing apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007277587A JP2009104047A (en) | 2007-10-25 | 2007-10-25 | Information processing method and information processing apparatus |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2009104047A true JP2009104047A (en) | 2009-05-14 |
Family
ID=40705759
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007277587A Pending JP2009104047A (en) | 2007-10-25 | 2007-10-25 | Information processing method and information processing apparatus |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2009104047A (en) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2012001730A1 (en) * | 2010-06-28 | 2012-01-05 | 三菱電機株式会社 | Speech recognition apparatus |
| JP2012088813A (en) * | 2010-10-15 | 2012-05-10 | Kyocera Corp | Electronic device and control method |
| KR20160060405A (en) * | 2014-11-20 | 2016-05-30 | 삼성전자주식회사 | Apparatus and method for registration of user command |
| KR20210049742A (en) * | 2014-11-20 | 2021-05-06 | 삼성전자주식회사 | Apparatus and method for registration of user command |
| KR20220143801A (en) * | 2021-04-22 | 2022-10-25 | 삼성전자주식회사 | Apparatus and method for registration of user command |
-
2007
- 2007-10-25 JP JP2007277587A patent/JP2009104047A/en active Pending
Cited By (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2012001730A1 (en) * | 2010-06-28 | 2012-01-05 | 三菱電機株式会社 | Speech recognition apparatus |
| US8990092B2 (en) | 2010-06-28 | 2015-03-24 | Mitsubishi Electric Corporation | Voice recognition device |
| JP2012088813A (en) * | 2010-10-15 | 2012-05-10 | Kyocera Corp | Electronic device and control method |
| KR20210049742A (en) * | 2014-11-20 | 2021-05-06 | 삼성전자주식회사 | Apparatus and method for registration of user command |
| US10885916B2 (en) | 2014-11-20 | 2021-01-05 | Samsung Electronics Co., Ltd. | Display apparatus and method for registration of user command |
| KR102245747B1 (en) * | 2014-11-20 | 2021-04-28 | 삼성전자주식회사 | Apparatus and method for registration of user command |
| KR20160060405A (en) * | 2014-11-20 | 2016-05-30 | 삼성전자주식회사 | Apparatus and method for registration of user command |
| KR102456588B1 (en) * | 2014-11-20 | 2022-10-21 | 삼성전자주식회사 | Apparatus and method for registration of user command |
| US11495228B2 (en) | 2014-11-20 | 2022-11-08 | Samsung Electronics Co., Ltd. | Display apparatus and method for registration of user command |
| US11900939B2 (en) | 2014-11-20 | 2024-02-13 | Samsung Electronics Co., Ltd. | Display apparatus and method for registration of user command |
| KR20220143801A (en) * | 2021-04-22 | 2022-10-25 | 삼성전자주식회사 | Apparatus and method for registration of user command |
| KR102599069B1 (en) | 2021-04-22 | 2023-11-06 | 삼성전자주식회사 | Apparatus and method for registration of user command |
| KR20230156283A (en) * | 2021-04-22 | 2023-11-14 | 삼성전자주식회사 | Apparatus and method for registration of user command |
| KR102890420B1 (en) * | 2021-04-22 | 2025-11-25 | 삼성전자주식회사 | Apparatus and method for registration of user command |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3967952B2 (en) | Grammar update system and method | |
| US9015048B2 (en) | Incremental speech recognition for dialog systems | |
| JP5706384B2 (en) | Speech recognition apparatus, speech recognition system, speech recognition method, and speech recognition program | |
| US20020111805A1 (en) | Methods for generating pronounciation variants and for recognizing speech | |
| CN108231065A (en) | Multi-lingual person's speech recognition correction system | |
| WO2017090115A1 (en) | Speech dialogue device and speech dialogue method | |
| JPWO2008126355A1 (en) | Keyword extractor | |
| KR20080107376A (en) | Communication device with speaker independent speech recognition | |
| JP2009104047A (en) | Information processing method and information processing apparatus | |
| US10216732B2 (en) | Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system | |
| JP2006058390A (en) | Voice recognition device | |
| CN113763921B (en) | Method and apparatus for correcting text | |
| EP1851757A1 (en) | Selecting an order of elements for a speech synthesis | |
| JP3058125B2 (en) | Voice recognition device | |
| KR20120111510A (en) | A system of robot controlling of using voice recognition | |
| US7181397B2 (en) | Speech dialog method and system | |
| JP2001005482A (en) | Voice recognition method and apparatus | |
| CN115116442A (en) | Voice interaction method and electronic equipment | |
| JP2002297179A (en) | Automatic response dialogue system | |
| KR102632806B1 (en) | Speech recoginition method and apparatus for early confirmation of speech-to-text results | |
| JP3526549B2 (en) | Speech recognition device, method and recording medium | |
| JP2008051883A (en) | Speech synthesis control method and apparatus | |
| JP2000047684A (en) | Voice recognizing method and voice service device | |
| EP1426924A1 (en) | Speaker recognition for rejecting background speakers | |
| JP2024084170A (en) | Voice recognition system and voice recognition method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100201 |
|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20100630 |