JP2006259641A - Voice recognition device and program - Google Patents
Voice recognition device and program Download PDFInfo
- Publication number
- JP2006259641A JP2006259641A JP2005080732A JP2005080732A JP2006259641A JP 2006259641 A JP2006259641 A JP 2006259641A JP 2005080732 A JP2005080732 A JP 2005080732A JP 2005080732 A JP2005080732 A JP 2005080732A JP 2006259641 A JP2006259641 A JP 2006259641A
- Authority
- JP
- Japan
- Prior art keywords
- additional information
- voice
- information
- input
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 claims description 31
- 230000008451 emotion Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 7
- 230000033764 rhythmic process Effects 0.000 abstract 2
- 238000001514 detection method Methods 0.000 description 10
- 238000012937 correction Methods 0.000 description 9
- 238000003066 decision tree Methods 0.000 description 8
- 238000000034 method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
Images
Abstract
Description
本発明は、音声認識装置及び音声認識用プログラムに係り、更に詳しくは、音声による文字入力を行う際に、顔文字、絵文字の特殊文字等の追加情報を簡単に付加することのできる音声認識装置及び音声認識用プログラムに関する。 The present invention relates to a speech recognition device and a speech recognition program, and more particularly, a speech recognition device that can easily add additional information such as emoticons and special characters of pictograms when inputting characters by speech. And a speech recognition program.
近時、パソコンや携帯電話の普及により、電子メール等の文字によるコミュニケーションが盛んに行われている。これに伴い、コミュニケーションの多様性が追求され、その結果、若者を中心としたユーザ間のやり取りには、単純な文章のみならず、各種文字及び記号で構成される顔文字や絵文字(以下、「特殊文字」と称する。)を併用した表現が用いられているところである。これら特殊文字は、昨今のワープロ変換辞書機能の向上により、通常の文字と同様、キーボードやテンキー等を使って入力可能になっている。 Recently, with the widespread use of personal computers and mobile phones, communication using characters such as e-mail has been actively performed. Accordingly, the diversity of communication has been pursued. As a result, not only simple sentences but also emoticons and pictograms composed of various characters and symbols (hereinafter “ An expression using a combination of “special characters” is used. These special characters can be input by using a keyboard, a numeric keypad, etc., like normal characters, due to recent improvements in word processor conversion dictionary functions.
ところで、人間の音声を文字列(テキスト)に変換する音声認識技術が発達してきており、当該音声認識技術により、音声による電子メール等への文字入力が可能となっている。このような音声認識技術として、入力された音声情報の変化から、当該音声情報に基づいて変換された文字列に対し、色やフォントを部分的に変える音声認識システムが知られている(特許文献1参照)。
しかしながら、前記音声認識システムにあっては、変換された文字列の色やフォントを変えることができるものの、前記特殊文字のような追加情報を入力できないという不都合がある。また、現行の音声認識技術を使って、変換された文字列に前記追加情報を付加しようとすると、ユーザ側で面倒な入力が必要になるという問題がある。すなわち、音声によって特殊文字を入力する際、その文字の種類を意味する音声、例えば、「顔文字1」、「顔文字、喜び」、「顔文字、ニコニコ」等、特殊文字入力を意味する音声と、当該入力文字の内容を意味する音声等とをユーザ側で複合的に入力しなければならず、面倒な入力作業が必要となる。 However, although the voice recognition system can change the color and font of the converted character string, there is a disadvantage that additional information such as the special character cannot be input. Further, if the additional information is added to the converted character string using the current speech recognition technology, there is a problem that troublesome input is required on the user side. That is, when inputting a special character by voice, a voice meaning the type of the character, for example, a voice meaning special characters such as “emoticon 1”, “emoticon, joy”, “emoticon, smiling” In addition, it is necessary for the user to input a voice or the like meaning the content of the input character in a complex manner, and a troublesome input operation is required.
本発明は、このような不都合に着目して案出されたものであり、その目的は、音声認識された文字列に対し、特殊文字等の文字、記号及び/又は図形等からなる追加情報を簡単に付加することができる音声認識装置及び音声認識用プログラムを提供することにある。 The present invention has been devised by paying attention to such inconveniences, and its purpose is to add additional information consisting of characters such as special characters, symbols and / or figures, etc. to a character string that has been voice-recognized. An object of the present invention is to provide a speech recognition apparatus and a speech recognition program that can be easily added.
(1)前記目的を達成するため、本発明は、入力音声から変換された文字列に付加される追加情報を作成する追加情報変換部を備え、当該追加情報変換部は、前記入力音声の韻律情報に基づいて作成される、という構成を採っている。 (1) In order to achieve the above object, the present invention includes an additional information conversion unit that creates additional information to be added to a character string converted from input speech, and the additional information conversion unit includes the prosody of the input speech. It is configured to be created based on information.
(2)また、前記追加情報変換部は、前記韻律情報から前記入力音声に込められた感情を推定し、当該感情を表現する追加情報を作成する、という構成を採ることが好ましい。 (2) Moreover, it is preferable that the said additional information conversion part takes the structure of estimating the emotion embedded in the said input audio | voice from the said prosodic information, and creating the additional information expressing the said emotion.
(3)更に、前記追加情報変換部は、前記追加情報が付加される入力音声の対象部分の全体の韻律情報と、前記対象部分の中の最終モーラ部分の韻律情報とに基づいて、前記追加情報の内容を決定する、という構成を採ることが好ましい。
なお、本明細書において、「モーラ」とは、拍感覚に相当する単位であり、例えば、「おんせい」という発声は、4モーラと数えられる。
(3) Furthermore, the additional information conversion unit is configured to add the additional information based on the prosodic information of the entire target portion of the input speech to which the additional information is added and the prosodic information of the final mora portion in the target portion. It is preferable to adopt a configuration in which the content of information is determined.
In the present specification, “mora” is a unit corresponding to beat sensation. For example, an utterance of “onsei” is counted as 4 mora.
(4)また、前記追加情報変換部は、一定時間以上のポーズで区切られた区間ごとに前記追加情報を付加すべきか否かを判断する、という構成を併せて採用するとよい。 (4) In addition, the additional information conversion unit may also employ a configuration in which it is determined whether or not the additional information should be added for each section divided by a pause of a predetermined time or more.
(5)更に、前記追加情報変換部では、正規化された前記韻律情報を使って前記追加情報を作成するとよい。 (5) Further, the additional information conversion unit may create the additional information using the normalized prosodic information.
(6)また、本発明は、コンピュータに対し音声認識処理を実行させる音声認識用プログラムであって、
入力音声から変換された文字列に対し、前記入力音声の韻律情報に基づいて付加される追加情報の作成を前記コンピュータに実行させる、という構成を採っている。
(6) The present invention is a speech recognition program for causing a computer to execute speech recognition processing,
A configuration is adopted in which the computer is caused to create additional information added to the character string converted from the input speech based on the prosodic information of the input speech.
本発明によれば、ユーザである話者の韻律情報に基づいて追加情報が作成されるため、韻律情報から話者の感情を推定し、当該感情に相当する追加情報等が自動的に作成可能となり、当該追加情報の作成に際し、追加情報の内容を意味する音声を話者が独立して入力する必要がなく、ユーザに馴染みやすい簡単な入力方法で、追加情報を精度良く文字列に付加させることができる。 According to the present invention, since additional information is created based on the prosody information of the speaker who is the user, the emotion of the speaker can be estimated from the prosodic information, and additional information corresponding to the emotion can be automatically created. Therefore, when creating the additional information, it is not necessary for the speaker to input the voice that means the content of the additional information independently, and the additional information is added to the character string with high accuracy by a simple input method that is easy for the user to become familiar with. be able to.
以下、本発明の実施例について図面を参照しながら説明する。 Embodiments of the present invention will be described below with reference to the drawings.
図1には、本実施例に係る音声認識装置が適用された音声認識システムの概略構成図が示されている。この図において、音声認識システム10は、パーソナルコンピュータ、携帯情報端末、携帯電話機等の端末に組み込まれており、ユーザである話者の音声が入力されるマイク11と、このマイク11への入力音声から文字、記号及び/又は図形からなる出力情報を作成する音声変換装置12と、音声変換装置12で作成された出力情報を表示する液晶ディスプレイ等の表示装置13とを備えている。ここで、本実施例のマイク11及び表示装置13は、公知の構成のものが採用されており、ここでは、各構成の詳細な説明を省略する。
FIG. 1 shows a schematic configuration diagram of a speech recognition system to which a speech recognition apparatus according to the present embodiment is applied. In this figure, a voice recognition system 10 is incorporated in a terminal such as a personal computer, a portable information terminal, a mobile phone, etc., and a
前記音声認識装置12は、ハードウェア及び/又はソフトウェアによって構成され、プロセッサ等、複数のプログラムモジュール及び/又は処理回路より成り立っており、以下に説明する各種処理を実行可能なプログラムがインストールされている。 The voice recognition device 12 is configured by hardware and / or software, and includes a plurality of program modules and / or processing circuits such as a processor, and is installed with a program capable of executing various processes described below. .
具体的に、この音声認識装置12は、マイク11からの入力音声に関する各種の音声データを検出する音声検出部15と、この音声検出部15で検出された音声データから、入力音声に相当する文字列を作成する主変換部17と、音声検出部15で検出された音声データから、前記文字列に付加される追加情報を作成する追加情報変換部18と、主変換部17で作成された文字列に、追加情報変換部18で作成された追加情報を付加した出力情報を作成する変換結合部19とを備えて構成されている。
Specifically, the voice recognition device 12 includes a
前記音声検出部15は、主変換部17及び追加情報変換部18で必要となる音声データを検出可能に設けられており、そのうちの一つとして、韻律情報、すなわち、音調となる周波数(Hz)と、音量(dB)と、速度(モーラ数/時間)とがそれぞれ検出される。
The
前記主変換部17は、マイク11からの入力音声データに対し、従来知られている種々の音声認識技術のうち何れか一若しくは複数の技術を使って、入力音声をテキストで表現するようになっている。なお、この音声認識技術は、本発明の要旨ではないため、詳細な説明を省略する。
The
前記追加情報変換部18は、音声検出部15で検出された韻律情報を補正する補正手段21と、補正後の韻律情報から、入力音声に込められた感情を推定して当該感情が表現された追加情報を選択する追加情報選択手段22とを備えて構成されている。
The additional information converting unit 18 corrects the prosodic information detected by the
前記補正手段21は、音声検出部15で検出された韻律情報に対して正規化処理(標準化処理)を行うようになっている。ここでの正規化処理は、同じ感情を表現した音声の韻律情報でも、例えば男女差等の個人差により、声の高さ等、大きさの程度が相違することから、追加情報選択手段22での一定基準への適用のために行われるものである。すなわち、ここでは、後述するように、音声認識を行う話者個人の固有データである各韻律情報の平均値及び標準偏差を予め求めておき、当該平均値及び標準偏差を使って、音声認識を行う際に入力された話者の音声の各韻律情報を正規化するようになっている。
The correction means 21 performs normalization processing (standardization processing) on the prosodic information detected by the
前記追加情報選択手段22は、話者が音声を入力する際に、一定時間以上のポーズで区切られた各音声区間に対し、前記追加情報が付加される対象部分として、補正手段21で補正された後の各韻律情報の値に基づき、前記追加情報を付加するか否かとその種類が決定される。ここで、本実施例での追加情報としては、対象部分の全文字列を太字にする強調表現と、対象部分の文字列の最後を改行する段落変更と、対象部分の文字列の最後に付加される顔文字(怒)、顔文字(喜)、顔文字(悲)とからなる全5種類が用意されている。この追加情報としては、これら5種類に限定されるものではなく、他の顔文字や絵文字を含む文字、記号類及び/又は図形等、種々の情報を、各韻律情報と関連付けて採用することも可能である。
The additional information selection unit 22 is corrected by the
ここでの各追加情報の選択基準は、対象部分全体の各韻律情報と、発声の最終拍部分である最終モーラの各韻律情報とをパラメータとし、それら値が所定の基準値を超えたか否か応じて判断され、具体的には、図2にフローチャート化した決定木方式により判断される。この決定木は、複数の話者に対して、予め指示した感情通りに同一文章を発声させることで蓄積されたデータにより構築され、予め設定されたものである。この決定木は、ユーザ側の発声による学習により構築するようにしてもよい。 Here, the selection criteria for each additional information is whether each prosodic information of the entire target part and each prosodic information of the final mora that is the final beat part of the utterance are parameters, and whether or not those values exceed a predetermined reference value Specifically, the determination is made by the decision tree method shown in the flowchart of FIG. This decision tree is constructed and set in advance by data accumulated by causing a plurality of speakers to utter the same sentence according to emotions designated in advance. This decision tree may be constructed by learning by utterance on the user side.
本実施例における追加情報選択手段22では、図2の決定木による決定に際し、対象部分全体の韻律情報として、周波数の平均値及び音量の平均値が少なくとも求められる一方、最終モーラの韻律情報として、周波数の句末上昇度、音量の平均値、及び速度が少なくとも求められる。周波数の句末上昇度は、最終モーラ全体の周波数曲線を最小二乗法で直線に近似して求められた直線の傾きである。なお、周波数や音量に関しては、対象部分全体及び最終モーラ共に、最大値、最小値、それらの幅であるレンジ等を求め、更に複雑な決定木を使って追加情報の判断を行うようにするとよく、この場合、認識精度が一層向上する。 In the additional information selection means 22 in the present embodiment, at the time of determination by the decision tree of FIG. 2, at least the average value of the frequency and the average value of the volume are obtained as the prosodic information of the entire target portion, while the prosodic information of the final mora is At least the phrase end-of-frequency increase, the average value of the volume, and the speed are obtained. The frequency end-of-phrase rise is the slope of a straight line obtained by approximating the frequency curve of the entire final mora to a straight line by the method of least squares. Regarding the frequency and volume, it is better to determine the maximum value, the minimum value, the range that is the width of the entire target portion and the final mora, and to determine additional information using a more complicated decision tree. In this case, the recognition accuracy is further improved.
次に、前記音声認識装置12による音声認識手順につき説明する。 Next, a voice recognition procedure by the voice recognition device 12 will be described.
先ず、初期設定が行われる。すなわち、音声認識装置12を使って音声認識を行う話者に対し、複数種類の文章をそれぞれ数回ずつ発声させ、その音声がマイク11に入力される。そして、音声検出部15で、当該音声の韻律情報である周波数、音量、速度がそれぞれ検出される。次に、補正手段21で、音声検出部15にて検出された周波数、音量、速度に対し、平均値及び標準偏差がそれぞれ算出される。これら平均値及び標準偏差は、後述するように、前記出力情報への変換の際に、入力音声の韻律情報に対する正規化処理に用いられる。
First, initial setting is performed. That is, a speaker who performs voice recognition using the voice recognition device 12 utters a plurality of types of sentences several times each, and the voice is input to the
以上の初期設定が行われた後、ユーザとなる話者側で、音声認識を行う音声がマイク11に入力される。例えば、話者が、怒りを込めて「何で昨日来なかったの」と発声したとする。このとき、話者が文末に顔文字(怒)付加させたいため、「来なかったの」の前後にポーズを入れ、「来なかったの」の部分の発音を、本当に怒りを表現しているかのように、全体的に、最終モーラ「たの」の部分を早く発声し、低い音から高い音(低周波数から高周波数)に徐々にシフトさせたとする。
After the above initial setting is performed, a voice for voice recognition is input to the
すると、主変換部17では、入力音声の内容に一致する文字列(テキスト)の変換が行われる。つまり、先の例では、入力音声から文字列「何で昨日来なかったの」に変換される。
Then, the
また、追加情報変換部18では、ポーズで区切られた各部分につき、追加情報が作成される。つまり、先の例では、前段の「何で昨日」の部分と、後段の「来なかったの」の部分に対し、追加情報の付加の判断及びその選択が行われる。 Further, the additional information conversion unit 18 creates additional information for each part delimited by the pause. In other words, in the previous example, the determination of addition of additional information and the selection thereof are performed for the part “Why yesterday” in the previous stage and the part “Did not come” in the subsequent stage.
先ず、音声検出部15で検出された検出値すなわち入力音声の各韻律情報(周波数、音量、速度)が、補正手段21により正規化処理され、各韻律情報の補正値が求められる。この補正値は、先の初期設定時に求められた話者個人の音声の周波数、音量、速度の各平均値及び各標準偏差を使って、次式により求められる。
補正値=(検出値−平均値)/標準偏差 (1)
First, the detection value detected by the
Correction value = (Detected value-Average value) / Standard deviation (1)
そして、追加情報を付加する対象部分に対し、求められた補正値を使って、図2の決定木方式により追加情報の選択が行われる。先の例だと、各補正値から、図2の決定木によって、普通に発音された「何で昨日」の部分は、「追加情報無し」と判断される一方、感情を込められた「来なかったの」の部分に対し、追加情報として顔文字(怒)が選択される。 Then, the additional information is selected by the decision tree method of FIG. 2 using the obtained correction value for the target portion to which the additional information is added. In the case of the previous example, from each correction value, the “Why yesterday” part, which is normally pronounced by the decision tree of FIG. 2, is judged as “no additional information”, while the emotional “not come” An emoticon (angry) is selected as additional information for the “Tano” part.
そして、変換結合部19で、主変換部17で作成された文字列に、追加情報変換部18で作成された追加情報が付加される。先の例では、主変換部で作成された文字列「何で昨日来なかったの」の後に、追加情報変換部18で作成された顔文字(怒)が付加される。このようにして完成した出力情報が表示装置13に表示される。
Then, the
従って、このような実施例によれば、人間が実際に強調や感情を表現するときの韻律的な特徴を参考にして、当該強調や感情を表現する追加情報が決定されるため、文字列に顔文字等の特殊文字の追加を行う際、対応する感情を込めて音声入力することで、特殊な操作や入力を行わなくても、特殊文字を簡単に付加できるという効果を得る。 Therefore, according to such an embodiment, additional information expressing the emphasis or emotion is determined with reference to the prosodic features when the human actually expresses emphasis or emotion. When adding special characters such as emoticons, voice input with corresponding emotions can provide an effect of easily adding special characters without performing special operations or inputs.
また、追加情報の付加に際し、感情表現の特徴が現れる韻律情報、すなわち、対象部分全体の韻律情報と、その最終モーラの韻律情報とを使うため、ユーザの感情に対応する追加情報に対する識別率を大幅に向上させることが可能となる。 In addition, when adding additional information, the prosody information in which the characteristic of emotion expression appears, that is, the prosodic information of the entire target part and the prosodic information of the final mora, the identification rate for the additional information corresponding to the user's emotion is set. It becomes possible to greatly improve.
なお、音声認識システム10は、前記実施例のようにシステム全体を端末等の一つのハードウェアに組み込んで構成する他、マイク11や表示装置13等の構成をユーザの端末側に残し、前記音声認識装置12を遠隔地に存在するサーバ等のコンピュータに組み込んで、遠隔地に存在するインターネット等のネットワーク通信網を使って、遠隔的な音声認識処理を行うようにしてもよい。
Note that the voice recognition system 10 is configured by incorporating the entire system into one piece of hardware such as a terminal as in the above embodiment, and the configuration of the
なお、本発明における装置各部の構成は図示構成例に限定されるものではなく、実質的に同様の作用を奏する限りにおいて、種々の変更が可能である。 The configuration of each part of the apparatus in the present invention is not limited to the illustrated configuration example, and various modifications are possible as long as substantially the same operation is achieved.
10 音声認識システム
11 マイク
12 音声認識装置
13 表示装置
15 音声検出部
17 主変換部
18 追加情報変換部
19 変換結合部
21 補正手段
22 追加情報選択手段
DESCRIPTION OF SYMBOLS 10
Claims (6)
入力音声から変換された文字列に対し、前記入力音声の韻律情報に基づいて付加される追加情報の作成を前記コンピュータに実行させることを特徴とする音声認識用プログラム。 A speech recognition program for causing a computer to execute speech recognition processing,
A speech recognition program that causes the computer to create additional information added to a character string converted from input speech based on prosodic information of the input speech.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005080732A JP2006259641A (en) | 2005-03-18 | 2005-03-18 | Voice recognition device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005080732A JP2006259641A (en) | 2005-03-18 | 2005-03-18 | Voice recognition device and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006259641A true JP2006259641A (en) | 2006-09-28 |
Family
ID=37098938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005080732A Pending JP2006259641A (en) | 2005-03-18 | 2005-03-18 | Voice recognition device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006259641A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008076904A (en) * | 2006-09-22 | 2008-04-03 | Univ Of Tokyo | Emotion discrimination method, emotion discrimination device, atmosphere information communication terminal |
JP2011070028A (en) * | 2009-09-25 | 2011-04-07 | Nec Corp | Letter conversion device and letter conversion method |
WO2012147274A1 (en) | 2011-04-26 | 2012-11-01 | Necカシオモバイルコミュニケーションズ株式会社 | Input assistance device, input asssistance method, and program |
WO2015178078A1 (en) * | 2014-05-22 | 2015-11-26 | ソニー株式会社 | Information processing device, information processing method, and program |
WO2018079332A1 (en) | 2016-10-31 | 2018-05-03 | ソニー株式会社 | Information processing device and information processing method |
-
2005
- 2005-03-18 JP JP2005080732A patent/JP2006259641A/en active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008076904A (en) * | 2006-09-22 | 2008-04-03 | Univ Of Tokyo | Emotion discrimination method, emotion discrimination device, atmosphere information communication terminal |
JP2011070028A (en) * | 2009-09-25 | 2011-04-07 | Nec Corp | Letter conversion device and letter conversion method |
WO2012147274A1 (en) | 2011-04-26 | 2012-11-01 | Necカシオモバイルコミュニケーションズ株式会社 | Input assistance device, input asssistance method, and program |
US9728189B2 (en) | 2011-04-26 | 2017-08-08 | Nec Corporation | Input auxiliary apparatus, input auxiliary method, and program |
WO2015178078A1 (en) * | 2014-05-22 | 2015-11-26 | ソニー株式会社 | Information processing device, information processing method, and program |
US10311303B2 (en) | 2014-05-22 | 2019-06-04 | Sony Corporation | Information processing apparatus, information processing method, and program |
US10853650B2 (en) | 2014-05-22 | 2020-12-01 | Sony Corporation | Information processing apparatus, information processing method, and program |
US11244163B2 (en) | 2014-05-22 | 2022-02-08 | Sony Corporation | Information processing apparatus, information processing method, and program |
US11763580B2 (en) | 2014-05-22 | 2023-09-19 | Sony Group Corporation | Information processing apparatus, information processing method, and program |
WO2018079332A1 (en) | 2016-10-31 | 2018-05-03 | ソニー株式会社 | Information processing device and information processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7949523B2 (en) | Apparatus, method, and computer program product for processing voice in speech | |
US20210366462A1 (en) | Emotion classification information-based text-to-speech (tts) method and apparatus | |
US12198675B2 (en) | Electronic apparatus and method for controlling thereof | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
CN108255290A (en) | Modal Learning on Mobile Devices | |
JP6747434B2 (en) | Information processing apparatus, information processing method, and program | |
US20140372117A1 (en) | Transcription support device, method, and computer program product | |
JP6468258B2 (en) | Voice dialogue apparatus and voice dialogue method | |
JP2016521383A (en) | Method, apparatus and computer readable recording medium for improving a set of at least one semantic unit | |
JP2014048506A (en) | Word registering apparatus, and computer program for the same | |
JP2004259238A (en) | Feeling understanding system in natural language analysis | |
CN105825869B (en) | Voice processing device and voice processing method | |
JP4516112B2 (en) | Speech recognition program | |
WO2011033834A1 (en) | Speech translation system, speech translation method, and recording medium | |
JP6233867B2 (en) | Dictionary registration system for speech recognition, speech recognition system, speech recognition service system, method and program | |
CN113870828A (en) | Audio synthesis method, apparatus, electronic device and readable storage medium | |
JP2004271895A (en) | Multilingual speech recognition system and pronunciation learning system | |
JP2006259641A (en) | Voice recognition device and program | |
JP5510069B2 (en) | Translation device | |
JP2010117528A (en) | Vocal quality change decision device, vocal quality change decision method and vocal quality change decision program | |
JP6183147B2 (en) | Information processing apparatus, program, and method | |
JP2023007014A (en) | Response system, response method, and response program | |
CN113973095A (en) | Pronunciation teaching method | |
JP6538399B2 (en) | Voice processing apparatus, voice processing method and program | |
WO2018043139A1 (en) | Information processing device, information processing method, and program |