JP2011175304A - Voice interactive device and method - Google Patents
Voice interactive device and method Download PDFInfo
- Publication number
- JP2011175304A JP2011175304A JP2011131432A JP2011131432A JP2011175304A JP 2011175304 A JP2011175304 A JP 2011175304A JP 2011131432 A JP2011131432 A JP 2011131432A JP 2011131432 A JP2011131432 A JP 2011131432A JP 2011175304 A JP2011175304 A JP 2011175304A
- Authority
- JP
- Japan
- Prior art keywords
- timing
- response
- prediction
- input
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、利用者が発した音声に対応した応答を行う音声対話装置および方法に関する。 The present invention relates to a voice interactive apparatus and method for performing a response corresponding to a voice uttered by a user.
従来、音声対話装置において、音声が入力されていることを人間に知らせることで音声入力の不安感を軽減するものや、対話中に間が空いた場合に入力を促進するものが知られている。その一つとして、擬人化された人工エージェントが対話中に相槌や頷きをすることで、「話を聞いている」または「話を続けて」などといった意思を人間に対して明確にすることにより、人間と人工エージェントとの対話を円滑に進めることを目的とする技術も提案されている(例えば、特許文献1、特許文献2、特許文献3、特許文献4、特許文献5、特許文献6参照。)。
2. Description of the Related Art Conventionally, in a voice dialogue apparatus, there are known ones that reduce anxiety of voice input by notifying humans that voice is being input, and those that facilitate input when there is a gap during dialogue . As one of them, by making humanized artificial agents interact and whisper during conversations, by clarifying the intentions such as “listening to the story” or “continuing the story” to humans In addition, a technique for smoothly promoting a dialogue between a human and an artificial agent has also been proposed (see, for example,
例えば、特許文献1に開示されている音声対話システムは、音声認識結果、ピッチの時系列情報、視線の時系列情報、及び係り受け情報等に基づいて応答タイミングや意味処理タイミングを判定して、応答タイミングであって且つ意味処理タイミングでないと判定したときに相槌また発話中のキーワードを発するように構成されている。
For example, the speech dialogue system disclosed in
また、特許文献2に開示されている相槌ロボットは、音声登録テーブルと認識結果が一致した場合に、対応する相槌登録データ(「そうだね」等)を読み出すように構成されている。
The conflict robot disclosed in
また、特許文献3、特許文献4、特許文献5、及び特許文献6には、予め決められたポーズやキーワードを検出した場合に相槌を出力する技術が開示されている。
Patent Document 3,
しかし、上述の特許文献1〜6に記載の技術では、ポーズやキーワード等の言語情報などといった、相槌や頷きを行うタイミングの直前における特徴量を用いて判定する。そして、判定してから相槌や頷きを行うまでの処理に時間がかかるため、適切なタイミングで相槌や頷きを入れることが困難である。
However, in the techniques described in
そして、このような不適切なタイミングでの相槌では、逆に話が遮られるなどの悪い印象を与えてしまったり(文献「音声対話システムにおける相槌認識/生成機能の言語情報と韻律情報による実現」、三宅他、2005年日本音響学会秋季研究発表会、1-P-20、pp.191-192)、発話の流れを止めてしまったりして(文献「韻律情報を用いた相槌生成システムとその評価」、竹内他、情報処理学会第64 回全国大会、Vol.2、pp.101-102)、対話のリズムを崩す可能性がある。 And, in the case of such inadequate timing, it may give a bad impression that the talk is interrupted (refer to the document "Realization of language recognition and prosodic information for conflict recognition / generation function in spoken dialogue system") , Miyake et al., 2005 Acoustical Society of Japan Autumn Meeting, 1-P-20, pp.191-192) "Evaluation", Takeuchi et al., IPSJ 64th National Convention, Vol.2, pp.101-102), there is a possibility of disrupting the rhythm of dialogue.
また、人間同士の対話では、発話にオーバーラップする相槌が多い(例えば文献「コーパスに基づく相槌の時間的分析と考察」、中里収、人工知能学会研究会資料、SIG-SLUD-A003-7(3/2)を参照)。しかし、相槌や頷きを行うタイミングをポーズや発話末の表現によって判定する手法では、発話にオーバーラップする相槌を実現することができない。 Moreover, in human-to-human dialogue, there are many conflicts that overlap utterances (for example, the literature “Corpus-based temporal analysis and discussion of conflicts”, Haruka Nakazato, Artificial Intelligence Society study material, SIG-SLUD-A003-7 ( (See 3/2)). However, with the method of determining the timing for performing a match or a call by the expression of the pause or the end of the utterance, it is not possible to realize a conflict that overlaps the utterance.
本発明は、こうした問題に鑑みなされたものであり、適切なタイミングで応答することができる音声対話装置および方法を提供することを目的とする。 The present invention has been made in view of these problems, and an object thereof is to provide a voice interactive apparatus and method capable of responding at an appropriate timing.
上記目的を達成するためになされた請求項1〜請求項5に記載の音声対話装置では、入力手段が、利用者が発した音声を入力し、予測手段が、入力手段に入力した音声に基づいて、該入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する。更にタイミング判断手段が、予測手段により取得されたタイミング予測情報に基づいて、応答タイミングになったか否かを判断する。そして応答手段が、タイミング判断手段により応答タイミングになったと判断された場合に、応答を行う。
In the spoken dialogue apparatus according to any one of
このように構成された音声対話装置によれば、予測手段によって応答タイミングを前もって予測することができるので、応答手段に応答を開始させるための処理時間を確保できる。つまり、応答手段が応答する前に応答タイミングになってしまうという事態が発生することを抑制でき、適切なタイミングで応答することができるという優れた効果を奏する。 According to the voice interaction apparatus configured as described above, since the response timing can be predicted in advance by the prediction means, it is possible to secure a processing time for causing the response means to start a response. That is, it is possible to suppress the occurrence of a situation in which the response timing is reached before the response means responds, and an excellent effect is achieved in that a response can be made at an appropriate timing.
また、請求項1〜請求項5に記載の音声対話装置では、予測手段は、利用者による発話が終了する少なくとも1文字前まで、或いは、利用者による発話中に割り込んで応答を行うことができる少なくとも1文字前までに、タイミング予測情報を取得するようにする。
In the spoken dialogue apparatus according to any one of
このように構成された音声対話装置によれば、予測手段によって応答タイミングを予測してから応答タイミングになるまでに、少なくとも1文字以上の発話がされる時間を確保することができる。 According to the spoken dialogue apparatus configured in this manner, it is possible to secure a time during which at least one character is uttered from when the response means predicts the response timing to when the response timing is reached.
また、請求項1〜請求項5の何れかに記載の音声対話装置において、予測手段は、具体的には、請求項6に記載のように、応答タイミングが予め決定されている予測モデルと、入力手段により入力した音声とについて、予測モデルの特徴量と、入力した音声の特徴量とを比較することにより、タイミング予測情報を取得するようにしてもよい。
Further, in the spoken dialogue apparatus according to any one of
更に、請求項6に記載の音声対話装置において、特徴量は、請求項7に記載のように、利用者による発話についての、統語的な特徴を示す統語的特徴量、及び韻律的な特徴を示す韻律的特徴量の少なくとも一方であるようにするとよい。 Further, in the spoken dialogue apparatus according to claim 6, as described in claim 7, the feature amount includes a syntactic feature amount indicating a syntactic feature and a prosodic feature regarding the utterance by the user. It is preferable that at least one of the prosodic feature values to be shown.
この統語的特徴量及び韻律的特徴量は、入力した音声から逐次的に得ることができるものであり、このように構成された音声対話装置によれば、予測モデルと逐次比較することにより、音声入力時に常に応答タイミングの予測をすることができる。 The syntactic feature value and the prosodic feature value can be obtained sequentially from the input voice. According to the spoken dialogue apparatus configured in this way, The response timing can always be predicted at the time of input.
また、請求項7に記載の音声対話装置において、請求項8に記載のように、統語的特徴量は、予め設定されたキーワード、単語列、形態素列、品詞列、音素列の少なくとも1つを含む情報であり、韻律的特徴量は、発話長、基本周波数の時系列情報、ピッチの時系列情報、パワーの時系列情報、及び話速の時系列情報の少なくとも1つを含む情報であるようにしてもよい。 Further, in the spoken dialogue apparatus according to claim 7, as described in claim 8, the syntactic feature amount is at least one of a preset keyword, word string, morpheme string, part of speech string, and phoneme string. The prosodic feature value is information including at least one of utterance length, basic frequency time-series information, pitch time-series information, power time-series information, and speech speed time-series information. It may be.
また、請求項4に記載の音声対話装置では、タイミング予測情報は、予測手段がタイミング予測情報を取得した後から応答タイミングになるまでに続く単語数、形態素数、品詞数、及び音素数の少なくとも1つであり、請求項5に記載の音声対話装置では、予測手段がタイミング予測情報を取得した後から応答タイミングになるまでに続く単語列、形態素列、品詞列、及び音素列の少なくとも1つである。
In the spoken dialogue apparatus according to
また、請求項1に記載の音声対話装置では、入力手段に入力した音声に基づいて、現在の話速を算出する話速算出手段を備え、予測手段は、予測手段がタイミング予測情報を取得した後から応答タイミングになるまでに続く単語数、形態素数、品詞数、音素数、単語列、形態素列、品詞列、音素列の少なくとも1つを取得し、これらと、話速算出手段により算出された話速とに基づいて、応答タイミングになるまでの応答タイミング到達時間を算出し、この応答タイミング到達時間をタイミング予測情報とするようにする。
The spoken dialogue apparatus according to
このように構成された音声対話装置によれば、話速に応じて応答タイミングを調整することができる。
また、請求項2に記載の音声対話装置では、予測手段は、予測手段がタイミング予測情報を取得した後から応答タイミングになるまでに経過する時間を予測し、この予測した時間をタイミング予測情報とし、請求項3に記載の音声対話装置では、予測手段がタイミング予測情報を取得した後から応答タイミングになるまでに続くフレーム数を予測し、この予測したフレーム数をタイミング予測情報とする。
According to the voice interaction apparatus configured as described above, the response timing can be adjusted according to the speech speed.
In the spoken dialogue apparatus according to
また、請求項1〜請求項8の何れかに記載の音声対話装置において、応答タイミングは、請求項9に記載のように、利用者の発話に重複して応答が行われるタイミングであるようにするとよい。
Further, in the voice interactive apparatus according to any one of
このように構成された音声対話装置によれば、人間同士が対話を行っている状態に近づけることができ、対話をより円滑に進行させることができる。
また、請求項10〜請求項14に記載の音声対話方法は、まず入力ステップにおいて、利用者が発した音声を入力し、続く予測ステップにおいて、入力ステップに入力した音声に基づいて、入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する。更にタイミング判断ステップにおいて、予測ステップにより取得されたタイミング予測情報に基づいて、応答タイミングになったか否かを判断する。そして応答ステップにおいて、タイミング判断ステップにより応答タイミングになったと判断された場合に、応答を行う。
According to the voice dialogue apparatus configured as described above, it is possible to bring a person close to a state in which dialogue is being performed, and the dialogue can be advanced more smoothly.
Further, in the voice interaction method according to any one of
この音声対話方法は、請求項1〜請求項5に記載の音声対話装置にて実行される方法であり、当該方法を実行することで、請求項1〜請求項5に記載の音声対話装置と同様の効果を得ることができる。
The voice interaction method is a method executed by the voice interaction device according to
また、請求項10〜請求項14に記載の音声対話方法において、予測ステップは、利用者による発話が終了する少なくとも1文字前まで、或いは、利用者による発話中に割り込んで応答を行うことができる少なくとも1文字前までに、タイミング予測情報を取得するようにする。
Furthermore, in the spoken dialogue method according to any one of
この音声対話方法は、請求項1〜請求項5に記載の音声対話装置にて実行される方法であり、当該方法を実行することで、請求項1〜請求項5に記載の音声対話装置と同様の効果を得ることができる。
The voice interaction method is a method executed by the voice interaction device according to
また、請求項10〜請求項14の何れかに記載の音声対話方法において、予測ステップは、具体的には、請求項15に記載のように、応答タイミングが予め決定されている予測モデルと、入力ステップにより入力した音声とについて、予測モデルの特徴量と、入力した音声の特徴量とを比較することにより、タイミング予測情報を取得するようにしてもよい。
Further, in the voice interaction method according to any one of
更に、請求項15に記載の音声対話方法において、特徴量は、請求項16に記載のように、利用者による発話についての、統語的な特徴を示す統語的特徴量、及び韻律的な特徴を示す韻律的特徴量の少なくとも一方であるようにするとよい。
Furthermore, in the spoken dialogue method according to
この音声対話方法は、請求項7に記載の音声対話装置にて実行される方法であり、当該方法を実行することで、請求項7に記載の音声対話装置と同様の効果を得ることができる。 This voice interaction method is a method executed by the voice interaction device according to claim 7, and the same effect as that of the voice interaction device according to claim 7 can be obtained by executing the method. .
また、請求項16に記載の音声対話方法において、請求項17に記載のように、統語的特徴量は、予め設定されたキーワード、単語列、形態素列、品詞列、音素列の少なくとも1つを含む情報であり、韻律的特徴量は、発話長、基本周波数の時系列情報、ピッチの時系列情報、パワーの時系列情報、及び話速の時系列情報の少なくとも1つを含む情報であるようにしてもよい。
Further, in the spoken dialogue method according to
また、請求項13に記載の音声対話方法では、タイミング予測情報は、予測ステップによりタイミング予測情報を取得した後から応答タイミングになるまでに続く単語数、形態素数、品詞数、及び音素数の少なくとも1つであり、請求項14に記載の音声対話方法では、予測ステップによりタイミング予測情報を取得した後から応答タイミングになるまでに続く単語列、形態素列、品詞列、及び音素列の少なくとも1つである。
In the voice interaction method according to
また、請求項10に記載の音声対話方法では、入力ステップにより入力した音声に基づいて、現在の話速を算出する話速算出ステップを備え、予測ステップは、予測手段ステップによりタイミング予測情報を取得した後から応答タイミングになるまでに続く単語数、形態素数、品詞数、音素数、単語列、形態素列、品詞列、音素列の少なくとも1つを取得し、これらと、話速算出ステップにより算出された話速とに基づいて、応答タイミングになるまでの応答タイミング到達時間を算出し、この応答タイミング到達時間をタイミング予測情報とするようにする。
The voice interaction method according to
この音声対話方法は、請求項1に記載の音声対話装置にて実行される方法であり、当該方法を実行することで、請求項1に記載の音声対話装置と同様の効果を得ることができる。
This voice interaction method is a method executed by the voice interaction device according to
また、請求項11に記載の音声対話方法では、予測ステップは、予測ステップによりタイミング予測情報を取得した後から応答タイミングになるまでに経過する時間を予測し、この予測した時間をタイミング予測情報とし、請求項12に記載の音声対話方法では、予測ステップによりタイミング予測情報を取得した後から応答タイミングになるまでに続くフレーム数を予測し、この予測したフレーム数をタイミング予測情報とする。
In the spoken dialogue method according to
また、請求項10〜請求項17の何れかに記載の音声対話方法において、応答タイミングは、請求項18に記載のように、利用者の発話に重複して応答が行われるタイミングであるようにするとよい。
Further, in the voice interaction method according to any one of
この音声対話方法は、請求項9に記載の音声対話装置にて実行される方法であり、当該方法を実行することで、請求項9に記載の音声対話装置と同様の効果を得ることができる。
This voice interaction method is a method executed by the voice interaction device according to
以下に本発明の実施形態について図面とともに説明する。
図1は本実施形態の音声対話装置1の構成を示すブロック図である。
図1に示すように、音声対話装置1は、利用者が発話した音声を入力する音声入力部2と、音声を出力する音声出力部3と、音声入力部2からの入力に応じて各種処理を実行し、音声出力部3を制御する制御部4とを備えている。
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 is a block diagram showing the configuration of the
As shown in FIG. 1, the
これらのうち音声入力部2は、利用者が音声を入力(発話)するとその入力した音声に基づく電気信号(音声信号)を制御部4に出力するものである。
また制御部4は、CPU,ROM,RAM,I/O及びこれらの構成を接続するバスラインなどからなる周知のマイクロコンピュータを中心に構成されており、ROM及びRAMに記憶されたプログラムに基づいて各種処理を実行する。
Among these, the
The
ここで図2は、制御部4が実行する処理の概要を示す機能ブロック図である。
図2に示すように、制御部4は、音声入力部2で入力した音声の認識処理を行う音声認識部11と、音声認識部11による認識結果に基づいて対話を進めるための応答(例えば、相槌や、「明日の天気はどうですか?」という音声入力に対して「明日は晴れです」というような応答)を生成する応答生成部12と、応答生成部12で生成された応答を音声出力部3に出力させる出力部13と、音声認識部11による認識結果に基づいて相槌等の応答を出力するタイミングを予測する出力タイミング予測部14と、出力タイミング予測部14で予測された出力タイミングで出力部13に音声出力部3による出力をさせる出力タイミング制御部15と、出力タイミング予測部14での予測結果に基づいて出力部13に音声出力部3による応答を変更させる応答変更部16と、出力タイミング予測部14での予測に用いる予測モデル(例えば、コーパス等の学習データ等を用いて予め作成したモデル)を記憶するモデル記憶部17とを備えている。
Here, FIG. 2 is a functional block diagram showing an outline of processing executed by the
As illustrated in FIG. 2, the
これらのうちモデル記憶部17は、上記予測モデルとして、現在の入力単語列に後続すると予測される単語列(以下、後続予測単語列ともいう)と、後続予測単語列に対応した出現確率とを記憶する出現確率リスト17aを記憶する。
Among these, the
このように構成された音声対話装置1において、制御部4は、入力した音声に基づいて対話を行う音声対話処理を実行する。
ここで、音声対話装置1の制御部4が実行する音声対話処理の手順を、図3,図4を用いて説明する。図3は音声対話処理を示すフローチャート、図4は出力タイミング予測の方法を説明する図である。
In the
Here, the procedure of the voice dialogue process executed by the
この音声対話処理は、制御部4が起動(電源オン)している間に繰り返し実行される処理である。
音声対話処理が実行されると、制御部4は、まずS10にて、音声入力部2に音声が入力したか否かを判断する。ここで音声が入力していない場合には(S10)、音声対話処理を一旦終了する。一方、音声が入力した場合には(S10)、S20にて、音声入力部2に入力した音声について音声認識を行う。
This voice interaction process is a process repeatedly executed while the
When the voice dialogue processing is executed, the
その後S30にて、S20での音声認識結果に基づき、音声入力部2に入力した音声から単語列を抽出する。更にS40にて、S20での音声認識結果に基づき、音声入力部2に入力した音声の話速を算出する。
Thereafter, in S30, based on the voice recognition result in S20, a word string is extracted from the voice input to the
そしてS50にて、S30で抽出した単語列と、出現確率リスト17aとを比較して、S30で抽出した単語列に後続すると予測される単語列(後続予測単語列)の中で最も出現確率の高い後続予測単語列を抽出する。更にS60にて、S40で算出した話速を用いて、S50で抽出した後続予測単語列が入力されるのにかかる時間(以下、後続入力時間ともいう)を算出する。その後S70にて、S50で抽出した後続予測単語列の出現確率を確信度として、S50で抽出した後続予測単語列に付与する。
In S50, the word string extracted in S30 is compared with the
その後S80にて、S50で抽出した後続予測単語列に付与された確信度が、予め設定された応答判定値(本実施形態では、例えば「0.1」)以上であるか否かを判断する。即ち、出力タイミング予測を確定させることができるか否かを判断する。ここで、確信度が応答判定値未満である場合には、出力タイミング予測を確定させることができないと判断し(S80)、S10に移行して上述の処理を繰り返す。一方、確信度が応答判定値以上である場合には、出力タイミング予測を確定させることができると判断し(S80)、S90に移行する。 Thereafter, in S80, it is determined whether or not the certainty given to the subsequent predicted word string extracted in S50 is equal to or higher than a preset response determination value (for example, “0.1” in the present embodiment). . That is, it is determined whether the output timing prediction can be confirmed. Here, when the certainty factor is less than the response determination value, it is determined that the output timing prediction cannot be determined (S80), the process proceeds to S10, and the above-described processing is repeated. On the other hand, if the certainty factor is greater than or equal to the response determination value, it is determined that the output timing prediction can be confirmed (S80), and the process proceeds to S90.
ここで、S50〜S80の処理の具体例を図4を用いて説明する。まず、図4に示すように、「すごく」という単語列が入力された場合には、「すごく」の後続予測単語列として、出現確率リスト17aから、「うれしい ね」(出現確率は0.015)、「おもしろかっ た」(出現確率は0.013)、「欲しい もの です」(出現確率は0.002)などという候補が上がり、この中で、出現確率が最も高いもの、例えば「うれしい ね」(出現確率は0.015)という後続予測単語列が抽出される(S50)。そして、「うれしい ね」という後続予測単語列には、出現確率に等しい「0.015」という確信度が付与される(S70)。しかし、この時点では、付与された確信度が応答判定値(0.1)未満であるため、出力タイミング予測は確定されない(S80)。
Here, a specific example of the processing of S50 to S80 will be described with reference to FIG. First, as shown in FIG. 4, when the word string “very” is input, it is “happy” (appearance probability is 0.015) from the
その後、「おもしろかっ」という単語列が入力された場合には、「すごく おもしろかっ」の後続予測単語列として、出現確率リスト17aから、「た <ポーズ>」(出現確率は0.235)、「た よ」(出現確率は0.186)、「た と 思う」(出現確率は0.008)などという候補が上がり、この中で、出現確率が最も高いもの、例えば「た <ポーズ>」(出現確率は0.235)という後続予測単語列が抽出される(S50)。そして、「た <ポーズ>」という後続予測単語列には、出現確率に等しい「0.235」という確信度が付与される(S70)。そして、この時点では、付与された確信度が応答判定値(0.1)以上であるため、出力タイミング予測が確定される(S80)。
After that, when the word string “interesting” is input, “ta <pause>” (appearance probability is 0.235), “ta” as the subsequent predicted word string “very interesting” from the
また図3に戻り、S90に移行すると、S70で付与された確信度に応じて応答の仕方を変更させる処理を行う。具体的には、S70で付与された確信度に比例して応答の音量を大きくするように、音量パラメータを設定する。 Returning to FIG. 3, when the process proceeds to S <b> 90, a process of changing the response method according to the certainty given in S <b> 70 is performed. Specifically, the volume parameter is set so that the volume of the response is increased in proportion to the certainty given in S70.
そしてS100にて、S80で出力タイミング予測が確定された時点から、S60で算出された後続入力時間が経過したか否かを判断する。即ち、出力タイミングになったか否かを判断する。ここで、後続入力時間が経過していない場合には(S100)、S100の処理を繰り返す。一方、後続入力時間が経過した場合には、出力タイミングになったと判断し(S100)、S110にて、応答生成部12で生成された応答を、S90で設定された音量パラメータに対応した音量で音声出力部3に出力させ、音声対話処理を一旦終了する。
In S100, it is determined whether or not the subsequent input time calculated in S60 has elapsed since the output timing prediction was determined in S80. That is, it is determined whether or not the output timing has come. If the subsequent input time has not elapsed (S100), the process of S100 is repeated. On the other hand, when the subsequent input time has elapsed, it is determined that the output timing has come (S100), and in S110, the response generated by the
このように構成された音声対話装置1によれば、S50〜S80の処理によって出力タイミングを前もって予測することができるので、S110の処理による応答の出力を開始させるための処理時間(以下、応答処理時間ともいう)を確保できる。つまり、応答の出力を開始する前に出力タイミングになってしまうという事態が発生することを抑制でき、適切なタイミングで応答することができるという優れた効果を奏する。
According to the spoken
また、出力タイミングを、利用者の発話に重複して応答が行われるタイミングとすることができる、このため、人間同士が対話を行っている状態に近づけることができ、対話をより円滑に進行させることができる。 Also, the output timing can be the timing at which a response is made overlapping with the user's utterance, so that it can be brought closer to the state in which humans are engaged in dialogue, and the dialogue proceeds more smoothly be able to.
具体的には、従来は、図6(a)に示すように、例えば「すごくおもしろかったよ<ポーズ>」という発話において、終助詞「よ」が発話された時点HT1や、ポーズの時点HT2で、文末であるか否かの判定を行い、この判定から応答処理時間SJ1が経過した時点OT1,OT2で応答を出力する。このため、発話が終了した直後に応答を出力したり、文末にオーバーラップして応答を出力したりすることが困難である。 Specifically, conventionally, as shown in FIG. 6A, for example, in the utterance “It was very interesting <pause>”, at the time HT1 when the final particle “yo” was uttered or at the time HT2 of the pose, It is determined whether or not it is the end of the sentence, and a response is output at the time point OT1 and OT2 when the response processing time SJ1 has elapsed from this determination. For this reason, it is difficult to output a response immediately after the end of the utterance or to output a response overlapping the end of the sentence.
一方、音声対話装置1は、図6(b)に示すように、発話が終了する前に、例えば図6(b)では「すごく おもしろかっ」の時点HT3で、発話が終了する時点を予測する。このため、この予測から応答処理時間SJ1が経過した時点OT3では、まだ発話が終了していない。これにより、発話が終了した直後に応答を出力したり、文末にオーバーラップして応答を出力したりすることができる。
On the other hand, as shown in FIG. 6B, the voice
またS50の処理では、S30で抽出した単語列と、出現確率リスト17aとを比較して、利用者による発話が終了する少なくとも1文字前までに、後続予測単語列を抽出する。このため、少なくとも1文字以上の発話がされる時間分の応答処理時間を確保することができる。
In the process of S50, the word string extracted in S30 is compared with the
また、S30の処理で抽出される単語列は、入力した音声から逐次的に得ることができるものであるので、S50の処理で、出現確率リスト17aと逐次比較することにより、音声入力時に常に出力タイミングの予測をすることができる。
Further, since the word string extracted in the process of S30 can be obtained sequentially from the input voice, it is always output at the time of voice input by sequentially comparing with the
またS60の処理では、S40で算出した話速を用いて、S50で抽出した後続予測単語列が入力されるのにかかる時間(後続入力時間)を算出する。このため、話速に応じて出力タイミングを調整することができる。 In the process of S60, the time (subsequent input time) required for inputting the subsequent predicted word string extracted in S50 is calculated using the speech speed calculated in S40. For this reason, output timing can be adjusted according to speech speed.
またS70の処理では、S50で抽出した後続予測単語列の出現確率を確信度として、S50で抽出した後続予測単語列に付与し、更にS80の処理で、確信度が応答判定値以上である場合に出力タイミング予測を確定させる。このため、確信度に基づいて信頼性の高い後続予測単語列を抽出することができるので、より適切なタイミングで応答を行うことができる。 Moreover, in the process of S70, when the appearance probability of the subsequent prediction word string extracted in S50 is given as the certainty to the subsequent prediction word string extracted in S50, and the certainty is equal to or higher than the response determination value in the process of S80. To confirm the output timing prediction. For this reason, since a reliable subsequent prediction word sequence can be extracted based on the certainty factor, a response can be performed at a more appropriate timing.
またS90の処理では、確信度に応じて応答の仕方を変更させる処理を行う。具体的には、確信度に比例して応答の音量を大きくするように、音量パラメータを設定する。このため、確信度が低い場合には利用者に対する働きかけの効果を小さくすることができ、対話のリズムが崩れるのを抑制することができる。 Further, in the process of S90, a process of changing the response method according to the certainty factor is performed. Specifically, the volume parameter is set so as to increase the response volume in proportion to the certainty factor. For this reason, when the certainty factor is low, the effect of acting on the user can be reduced, and the rhythm of the dialogue can be prevented from being lost.
以上説明した実施形態において、音声入力部2は本発明における入力手段及び入力ステップ、S50〜S80の処理は本発明における予測手段及び予測ステップ、S100の処理は本発明におけるタイミング判断手段及びタイミング判断ステップ、S110の処理は本発明における応答手段及び応答ステップ、後続予測単語列は本発明におけるタイミング予測情報、出現確率リスト17aは本発明における予測モデルである。
In the embodiment described above, the
以上、本発明の一実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の技術的範囲に属する限り種々の形態を採ることができる。
例えば、上記実施形態においては、音声対話装置1は、音声出力部3から音声を出力することにより相槌などの応答するものを示したが、これに限られるものではなく、視覚的に応答するものであってもよい。例えば、LEDを備えてLEDの点灯により応答するものであってもよいし、ディスプレイを備えて頷く動作を表示させるようにしてもよいし、ロボットに頷く動作をさせるようにしてもよい。
As mentioned above, although one Embodiment of this invention was described, this invention is not limited to the said embodiment, As long as it belongs to the technical scope of this invention, a various form can be taken.
For example, in the above-described embodiment, the
また上記実施形態においては、S30で単語列を抽出して、この抽出した情報を用いて出力タイミングの予測を行っているが、これに限ったものではなく、単語列とは異なる統語的特徴量、例えば、予め定められたキーワード、形態素列、品詞列、及び音素列の少なくとも1つを抽出するようにしてもよいし、発話長、基本周波数の時系列情報、ピッチの時系列情報、パワーの時系列情報、及び話速の時系列情報などの韻律的特徴量の少なくとも1つを抽出するようにしてもよい。 In the above embodiment, the word string is extracted in S30, and the output timing is predicted using the extracted information. However, the present invention is not limited to this, and the syntactic feature quantity different from the word string is used. For example, at least one of a predetermined keyword, morpheme string, part-of-speech string, and phoneme string may be extracted, utterance length, basic frequency time-series information, pitch time-series information, power At least one of prosodic feature quantities such as time-series information and speech speed time-series information may be extracted.
また上記実施形態のS50では、単語列と出現確率リスト17aとを比較することにより出力タイミングの予測を行っているが、これに限ったものではなく、時系列データから作られたモデルとの距離を測る手法(例えば、テンプレートマッチング)や他のN−gramモデル(例えば、単語N−gram、品詞N−gram、音素N−gram)による予測でもよい。
In S50 of the above embodiment, the output timing is predicted by comparing the word string and the
また上記実施形態のS50では、後続する単語列を予測しているが、これに限ったものではなく、後続する形態素列、品詞列、及び音素列の少なくとも一つを予測するようにしてもよいし、後続する単語数、形態素数、品詞数、及び音素数の少なくとも一つを予測するようにしてもよい。 In S50 of the above embodiment, the following word string is predicted. However, the present invention is not limited to this, and at least one of the following morpheme string, part-of-speech string, and phoneme string may be predicted. In addition, at least one of the following number of words, number of morphemes, number of parts of speech, and number of phonemes may be predicted.
または、S50で出力タイミングになるまでの時間を直接予測するようにしてもよいし、出力タイミングになるまでのフレーム数を予測するようにしてもよい。この場合には、後続入力時間を算出する処理(S60)が不要となる。 Alternatively, the time until the output timing is reached in S50 may be directly predicted, or the number of frames until the output timing is reached may be predicted. In this case, the process (S60) for calculating the subsequent input time is not necessary.
また上記実施形態のS60では、話速を用いて、後続する単語列が入力されるのにかかる時間(後続入力時間)を算出しているが、これに限ったものではなく、例えば単語数を予測した場合には、予測された単語数が入力されるのにかかる時間を話速から算出するようにすればよい。また、予測された単語数、音素数、及び単語列等と、予め定めた1単語あたりの時間や単語列を入力するのにかかる時間とから後続入力時間を算出するようにしてもよい。 In S60 of the above embodiment, the time required to input the subsequent word string (following input time) is calculated using the speech speed. However, the present invention is not limited to this. For example, the number of words is calculated. When predicted, the time taken to input the predicted number of words may be calculated from the speech speed. Further, the subsequent input time may be calculated from the predicted number of words, number of phonemes, word string, and the like, and a predetermined time per word and time taken to input the word string.
また上記実施形態のS70では、S50で抽出した後続予測単語列の出現確率を確信度としているが、これに替えて或いはこれとともに、モデルとの一致率、音声認識部11による認識結果の確信度、及び、新しい予測結果の方が古い予測結果よりも予測の信頼性が高くなるように設定された時定数の少なくとも1つ以上の情報を用いて、S70における確信度を算出してもよい。
Moreover, in S70 of the said embodiment, although the appearance probability of the subsequent prediction word sequence extracted by S50 is made into the certainty degree, it replaces with this, or with this, the matching rate with a model, the certainty degree of the recognition result by the
また上記実施形態のS80では、確信度が応答判定値以上であるか否かによって出力タイミング予測の確定を行っているが、これに限ったものではなく、ある範囲内(一定時間内、一定単語数内など)で出力タイミング予測された複数の候補の中から、この候補に付加された確信度の大小を比較することにより行うようにしてもよいし、上記応答判定値と確信度の大小比較の組み合わせによって行うようにしてもよい。 In S80 of the above embodiment, the output timing prediction is determined based on whether or not the certainty level is greater than or equal to the response determination value. However, the present invention is not limited to this. It may be performed by comparing the degree of certainty added to this candidate from a plurality of candidates whose output timing is predicted within the number, etc., or the magnitude comparison between the response determination value and the certainty degree You may make it carry out by the combination of these.
また上記実施形態のS90では、確信度に比例して応答の音量を大きくするようにしているが、これに限ったものではなく、確信度と後続予測単語列に対応した音量パラメータとを記憶する音量パラメータリスト21(図5を参照)を予め設け、この音量パラメータリスト21を参照することにより応答の音量を設定するようにしてもよい。
In S90 of the above embodiment, the response volume is increased in proportion to the certainty factor. However, the present invention is not limited to this, and the certainty factor and the volume parameter corresponding to the subsequent predicted word string are stored. A volume parameter list 21 (see FIG. 5) may be provided in advance, and the volume of the response may be set by referring to the
また上記実施形態のS90では、確信度に応じて応答の仕方を変更させるが、これに限ったものではなく、予測された単語列、形態素列、品詞列、及び音素列等に応じて、応答の仕方を変更するようにしてもよい。 In S90 of the above embodiment, the response method is changed according to the certainty factor. However, the method is not limited to this, and the response is made according to the predicted word string, morpheme string, part of speech string, phoneme string, and the like. You may make it change the way of.
また上記実施形態での応答は音声によるものであるが、応答の形態は頷きや瞬きなどであってもよいし、また、相槌の代表的な機能である「発話内容を理解したことを示す」「聞いていることを示す」「ターンテイキングの明確化」「感情や同意・否定を示す」「発話を促す」といった働きをもつメッセージや動作であってもよい。例えば、LEDを点灯させる、ディスプレイの明るさを変更する、物体の傾きを変更する、動きのスピードを変更する、動作回数を変更する、色や明るさを変更する、応答音声の声を変更する、応答メッセージを変更する、CGアニメーションを変更するということが考えられる。 In addition, the response in the above embodiment is by voice, but the form of response may be whispering, blinking, or the like, and a typical function of the companion is “indicating understanding of utterance content” It may be a message or action having functions such as “indicating what is being heard”, “clarification of turn taking”, “indicating feelings and consent / denial”, and “promoting utterance”. For example, turn on the LED, change the brightness of the display, change the tilt of the object, change the speed of movement, change the number of operations, change the color and brightness, change the voice of the response voice It is conceivable to change the response message or change the CG animation.
1…音声対話装置、2…音声入力部、3…音声出力部、4…制御部、11…音声認識部、12…応答生成部、13…出力部、14…出力タイミング予測部、15…出力タイミング制御部、16…応答変更部、17…モデル記憶部、17a…出現確率リスト、21…音量パラメータリスト
DESCRIPTION OF
Claims (18)
前記入力手段に入力した音声に基づいて、該入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する予測手段と、
前記予測手段により取得されたタイミング予測情報に基づいて、前記応答タイミングになったか否かを判断するタイミング判断手段と、
前記タイミング判断手段により前記応答タイミングになったと判断された場合に、前記応答を行う応答手段と
を備え、
前記予測手段は、
利用者による発話が終了する少なくとも1文字前まで、或いは、利用者による発話中に割り込んで前記応答を行うことができる少なくとも1文字前までに、前記タイミング予測情報を取得し、
前記入力手段に入力した音声に基づいて、現在の話速を算出する話速算出手段を備え、
前記予測手段は、
前記予測手段が前記タイミング予測情報を取得した後から前記応答タイミングになるまでに続く単語数、形態素数、品詞数、音素数、単語列、形態素列、品詞列、音素列の少なくとも1つを取得し、これらと、前記話速算出手段により算出された話速とに基づいて、前記応答タイミングになるまでの応答タイミング到達時間を算出し、該応答タイミング到達時間を前記タイミング予測情報とする
ことを特徴とする音声対話装置。 An input means for inputting voice uttered by the user;
Prediction means for acquiring timing prediction information indicating a prediction result of response timing for performing a response corresponding to the input voice based on the voice input to the input means;
Timing determination means for determining whether or not the response timing has been reached based on the timing prediction information acquired by the prediction means;
Response means for performing the response when it is determined by the timing determination means that the response timing has been reached, and
The prediction means includes
The timing prediction information is acquired at least one character before the end of the utterance by the user, or at least one character before the user can interrupt and perform the response.
A speech speed calculating means for calculating a current speech speed based on the voice input to the input means;
The prediction means includes
Acquire at least one of the number of words, the number of morphemes, the number of parts of speech, the number of phonemes, the word string, the morpheme string, the part of speech string, and the phoneme string after the prediction means acquires the timing prediction information and before the response timing is reached. Then, based on these and the speech speed calculated by the speech speed calculating means, a response timing arrival time until the response timing is reached is calculated, and the response timing arrival time is used as the timing prediction information. A featured voice dialogue device.
前記入力手段に入力した音声に基づいて、該入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する予測手段と、
前記予測手段により取得されたタイミング予測情報に基づいて、前記応答タイミングになったか否かを判断するタイミング判断手段と、
前記タイミング判断手段により前記応答タイミングになったと判断された場合に、前記応答を行う応答手段と
を備え、
前記予測手段は、
利用者による発話が終了する少なくとも1文字前まで、或いは、利用者による発話中に割り込んで前記応答を行うことができる少なくとも1文字前までに、前記タイミング予測情報を取得し、
前記予測手段が前記タイミング予測情報を取得した後から前記応答タイミングになるまでに経過する時間を予測し、該予測した時間を前記タイミング予測情報とする
ことを特徴とする音声対話装置。 An input means for inputting voice uttered by the user;
Prediction means for acquiring timing prediction information indicating a prediction result of response timing for performing a response corresponding to the input voice based on the voice input to the input means;
Timing determination means for determining whether or not the response timing has been reached based on the timing prediction information acquired by the prediction means;
Response means for performing the response when it is determined by the timing determination means that the response timing has been reached, and
The prediction means includes
The timing prediction information is acquired at least one character before the end of the utterance by the user, or at least one character before the user can interrupt and perform the response.
A spoken dialogue apparatus characterized by predicting a time that elapses from when the prediction means acquires the timing prediction information until the response timing is reached, and using the predicted time as the timing prediction information.
前記入力手段に入力した音声に基づいて、該入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する予測手段と、
前記予測手段により取得されたタイミング予測情報に基づいて、前記応答タイミングになったか否かを判断するタイミング判断手段と、
前記タイミング判断手段により前記応答タイミングになったと判断された場合に、前記応答を行う応答手段と
を備え、
前記予測手段は、
利用者による発話が終了する少なくとも1文字前まで、或いは、利用者による発話中に割り込んで前記応答を行うことができる少なくとも1文字前までに、前記タイミング予測情報を取得し、
前記予測手段が前記タイミング予測情報を取得した後から前記応答タイミングになるまでに続くフレーム数を予測し、該予測したフレーム数を前記タイミング予測情報とする
ことを特徴とする音声対話装置。 An input means for inputting voice uttered by the user;
Prediction means for acquiring timing prediction information indicating a prediction result of response timing for performing a response corresponding to the input voice based on the voice input to the input means;
Timing determination means for determining whether or not the response timing has been reached based on the timing prediction information acquired by the prediction means;
Response means for performing the response when it is determined by the timing determination means that the response timing has been reached, and
The prediction means includes
The timing prediction information is acquired at least one character before the end of the utterance by the user, or at least one character before the user can interrupt and perform the response.
A spoken dialogue apparatus characterized by predicting the number of frames that continue from when the prediction means acquires the timing prediction information until the response timing is reached, and using the predicted number of frames as the timing prediction information.
前記入力手段に入力した音声に基づいて、該入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する予測手段と、
前記予測手段により取得されたタイミング予測情報に基づいて、前記応答タイミングになったか否かを判断するタイミング判断手段と、
前記タイミング判断手段により前記応答タイミングになったと判断された場合に、前記応答を行う応答手段と
を備え、
前記予測手段は、
利用者による発話が終了する少なくとも1文字前まで、或いは、利用者による発話中に割り込んで前記応答を行うことができる少なくとも1文字前までに、前記タイミング予測情報を取得し、
前記タイミング予測情報は、
前記予測手段が前記タイミング予測情報を取得した後から前記応答タイミングになるまでに続く単語数、形態素数、品詞数、及び音素数の少なくとも1つである
ことを特徴とする音声対話装置。 An input means for inputting voice uttered by the user;
Prediction means for acquiring timing prediction information indicating a prediction result of response timing for performing a response corresponding to the input voice based on the voice input to the input means;
Timing determination means for determining whether or not the response timing has been reached based on the timing prediction information acquired by the prediction means;
Response means for performing the response when it is determined by the timing determination means that the response timing has been reached, and
The prediction means includes
The timing prediction information is acquired at least one character before the end of the utterance by the user, or at least one character before the user can interrupt and perform the response.
The timing prediction information is
The spoken dialogue apparatus according to claim 1, wherein the prediction means is at least one of the number of words, the number of morphemes, the number of parts of speech, and the number of phonemes that follow from the acquisition of the timing prediction information to the response timing.
前記入力手段に入力した音声に基づいて、該入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する予測手段と、
前記予測手段により取得されたタイミング予測情報に基づいて、前記応答タイミングになったか否かを判断するタイミング判断手段と、
前記タイミング判断手段により前記応答タイミングになったと判断された場合に、前記応答を行う応答手段と
を備え、
前記予測手段は、
利用者による発話が終了する少なくとも1文字前まで、或いは、利用者による発話中に割り込んで前記応答を行うことができる少なくとも1文字前までに、前記タイミング予測情報を取得し、
前記タイミング予測情報は、
前記予測手段が前記タイミング予測情報を取得した後から前記応答タイミングになるまでに続く単語列、形態素列、品詞列、及び音素列の少なくとも1つである
ことを特徴とする音声対話装置。 An input means for inputting voice uttered by the user;
Prediction means for acquiring timing prediction information indicating a prediction result of response timing for performing a response corresponding to the input voice based on the voice input to the input means;
Timing determination means for determining whether or not the response timing has been reached based on the timing prediction information acquired by the prediction means;
Response means for performing the response when it is determined by the timing determination means that the response timing has been reached, and
The prediction means includes
The timing prediction information is acquired at least one character before the end of the utterance by the user, or at least one character before the user can interrupt and perform the response.
The timing prediction information is
A spoken dialogue apparatus, comprising: at least one of a word string, a morpheme string, a part-of-speech string, and a phoneme string that continues from when the prediction unit acquires the timing prediction information until the response timing is reached.
前記応答タイミングが予め決定されている予測モデルと、前記入力手段により入力した音声とについて、前記予測モデルの特徴量と、前記入力した音声の特徴量とを比較することにより、前記タイミング予測情報を取得する
ことを特徴とする請求項1〜請求項5の何れかに記載の音声対話装置。 The prediction means includes
The timing prediction information is obtained by comparing a feature amount of the prediction model with a feature amount of the input speech for the prediction model in which the response timing is determined in advance and the speech input by the input unit. The voice dialogue apparatus according to claim 1, wherein the voice dialogue apparatus is obtained.
利用者による発話についての、統語的な特徴を示す統語的特徴量、及び韻律的な特徴を示す韻律的特徴量の少なくとも一方である
ことを特徴とする請求項6に記載の音声対話装置。 The feature amount is
The spoken dialogue apparatus according to claim 6, which is at least one of a syntactic feature indicating a syntactic feature and a prosodic feature indicating a prosodic feature regarding an utterance by a user.
予め設定されたキーワード、単語列、形態素列、品詞列、音素列の少なくとも1つを含む情報であり、
前記韻律的特徴量は、
発話長、基本周波数の時系列情報、ピッチの時系列情報、パワーの時系列情報、及び話速の時系列情報の少なくとも1つを含む情報である
ことを特徴とする請求項7に記載の音声対話装置。 The syntactic feature is
Information including at least one of a preset keyword, word string, morpheme string, part of speech string, phoneme string,
The prosodic feature amount is:
The voice according to claim 7, wherein the audio includes at least one of utterance length, basic frequency time-series information, pitch time-series information, power time-series information, and speech speed time-series information. Interactive device.
利用者の発話に重複して前記応答が行われるタイミングである
ことを特徴とする請求項1〜請求項8の何れかに記載の音声対話装置。 The response timing is
The voice interactive apparatus according to any one of claims 1 to 8, wherein the response is made at the timing when the response is made in duplicate with the user's utterance.
前記入力ステップに入力した音声に基づいて、該入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する予測ステップと、
前記予測ステップにより取得されたタイミング予測情報に基づいて、前記応答タイミングになったか否かを判断するタイミング判断ステップと、
前記タイミング判断ステップにより前記応答タイミングになったと判断された場合に、前記応答を行う応答ステップとからなり、
前記予測ステップは、
利用者による発話が終了する少なくとも1文字前まで、或いは、利用者による発話中に割り込んで前記応答を行うことができる少なくとも1文字前までに、前記タイミング予測情報を取得し、
前記入力ステップにより入力した音声に基づいて、現在の話速を算出する話速算出ステップを備え、
前記予測ステップは、
前記予測ステップにより前記タイミング予測情報を取得した後から前記応答タイミングになるまでに続く単語数、形態素数、品詞数、音素数、単語列、形態素列、品詞列、音素列の少なくとも1つを取得し、これらと、前記話速算出ステップにより算出された話速とに基づいて、前記応答タイミングになるまでの応答タイミング到達時間を算出し、該応答タイミング到達時間を前記タイミング予測情報とする
ことを特徴とする音声対話方法。 An input step for inputting voice uttered by the user;
A prediction step of acquiring timing prediction information indicating a prediction result of a response timing for performing a response corresponding to the input voice based on the voice input in the input step;
A timing determination step for determining whether or not the response timing has been reached based on the timing prediction information acquired in the prediction step;
When it is determined that the response timing is reached by the timing determination step, the response step performs the response, and
The prediction step includes
The timing prediction information is acquired at least one character before the end of the utterance by the user, or at least one character before the user can interrupt and perform the response.
A speech speed calculating step of calculating a current speech speed based on the voice input in the input step,
The prediction step includes
Acquire at least one of the number of words, the number of morphemes, the number of parts of speech, the number of phonemes, the word string, the morpheme string, the part of speech string, and the phoneme string after the timing prediction information is acquired by the prediction step until the response timing is reached. Then, based on these and the speech speed calculated in the speech speed calculation step, a response timing arrival time until the response timing is reached is calculated, and the response timing arrival time is used as the timing prediction information. A featured voice interaction method.
前記入力ステップに入力した音声に基づいて、該入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する予測ステップと、
前記予測ステップにより取得されたタイミング予測情報に基づいて、前記応答タイミングになったか否かを判断するタイミング判断ステップと、
前記タイミング判断ステップにより前記応答タイミングになったと判断された場合に、前記応答を行う応答ステップとからなり、
前記予測ステップは、
利用者による発話が終了する少なくとも1文字前まで、或いは、利用者による発話中に割り込んで前記応答を行うことができる少なくとも1文字前までに、前記タイミング予測情報を取得し、
前記予測ステップにより前記タイミング予測情報を取得した後から前記応答タイミングになるまでに経過する時間を予測し、該予測した時間を前記タイミング予測情報とする
ことを特徴とする音声対話方法。 An input step for inputting voice uttered by the user;
A prediction step of acquiring timing prediction information indicating a prediction result of a response timing for performing a response corresponding to the input voice based on the voice input in the input step;
A timing determination step for determining whether or not the response timing has been reached based on the timing prediction information acquired in the prediction step;
When it is determined that the response timing is reached by the timing determination step, the response step performs the response, and
The prediction step includes
The timing prediction information is acquired at least one character before the end of the utterance by the user, or at least one character before the user can interrupt and perform the response.
A voice interaction method characterized by predicting a time that elapses after the timing prediction information is acquired by the prediction step until the response timing is reached, and the predicted time is used as the timing prediction information.
前記入力ステップに入力した音声に基づいて、該入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する予測ステップと、
前記予測ステップにより取得されたタイミング予測情報に基づいて、前記応答タイミングになったか否かを判断するタイミング判断ステップと、
前記タイミング判断ステップにより前記応答タイミングになったと判断された場合に、前記応答を行う応答ステップとからなり、
前記予測ステップは、
利用者による発話が終了する少なくとも1文字前まで、或いは、利用者による発話中に割り込んで前記応答を行うことができる少なくとも1文字前までに、前記タイミング予測情報を取得し、
前記予測ステップにより前記タイミング予測情報を取得した後から前記応答タイミングになるまでに続くフレーム数を予測し、該予測したフレーム数を前記タイミング予測情報とする
ことを特徴とする音声対話方法。 An input step for inputting voice uttered by the user;
A prediction step of acquiring timing prediction information indicating a prediction result of a response timing for performing a response corresponding to the input voice based on the voice input in the input step;
A timing determination step for determining whether or not the response timing has been reached based on the timing prediction information acquired in the prediction step;
When it is determined that the response timing is reached by the timing determination step, the response step performs the response, and
The prediction step includes
The timing prediction information is acquired at least one character before the end of the utterance by the user, or at least one character before the user can interrupt and perform the response.
A voice interaction method characterized by predicting the number of frames that continue from when the timing prediction information is acquired by the prediction step until the response timing is reached, and using the predicted number of frames as the timing prediction information.
前記入力ステップに入力した音声に基づいて、該入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する予測ステップと、
前記予測ステップにより取得されたタイミング予測情報に基づいて、前記応答タイミングになったか否かを判断するタイミング判断ステップと、
前記タイミング判断ステップにより前記応答タイミングになったと判断された場合に、前記応答を行う応答ステップとからなり、
前記予測ステップは、
利用者による発話が終了する少なくとも1文字前まで、或いは、利用者による発話中に割り込んで前記応答を行うことができる少なくとも1文字前までに、前記タイミング予測情報を取得し、
前記予測ステップにより前記タイミング予測情報を取得した後から前記応答タイミングになるまでに続く単語数、形態素数、品詞数、及び音素数の少なくとも1つである
ことを特徴とする音声対話方法。 An input step for inputting voice uttered by the user;
A prediction step of acquiring timing prediction information indicating a prediction result of a response timing for performing a response corresponding to the input voice based on the voice input in the input step;
A timing determination step for determining whether or not the response timing has been reached based on the timing prediction information acquired in the prediction step;
When it is determined that the response timing is reached by the timing determination step, the response step performs the response, and
The prediction step includes
The timing prediction information is acquired at least one character before the end of the utterance by the user, or at least one character before the user can interrupt and perform the response.
A spoken dialogue method, comprising: at least one of the number of words, the number of morphemes, the number of parts of speech, and the number of phonemes that continue from when the timing prediction information is acquired by the prediction step until the response timing is reached.
前記入力ステップに入力した音声に基づいて、該入力した音声に対応した応答を行う応答タイミングの予測結果を示すタイミング予測情報を取得する予測ステップと、
前記予測ステップにより取得されたタイミング予測情報に基づいて、前記応答タイミングになったか否かを判断するタイミング判断ステップと、
前記タイミング判断ステップにより前記応答タイミングになったと判断された場合に、前記応答を行う応答ステップとからなり、
前記予測ステップは、
利用者による発話が終了する少なくとも1文字前まで、或いは、利用者による発話中に割り込んで前記応答を行うことができる少なくとも1文字前までに、前記タイミング予測情報を取得し、
前記タイミング予測情報は、
前記予測ステップにより前記タイミング予測情報を取得した後から前記応答タイミングになるまでに続く単語列、形態素列、品詞列、及び音素列の少なくとも1つである
ことを特徴とする音声対話方法。 An input step for inputting voice uttered by the user;
A prediction step of acquiring timing prediction information indicating a prediction result of a response timing for performing a response corresponding to the input voice based on the voice input in the input step;
A timing determination step for determining whether or not the response timing has been reached based on the timing prediction information acquired in the prediction step;
When it is determined that the response timing is reached by the timing determination step, the response step performs the response, and
The prediction step includes
The timing prediction information is acquired at least one character before the end of the utterance by the user, or at least one character before the user can interrupt and perform the response.
The timing prediction information is
A spoken dialogue method, comprising: at least one of a word string, a morpheme string, a part-of-speech string, and a phoneme string after the timing prediction information is acquired by the prediction step and before the response timing is reached.
前記応答タイミングが予め決定されている予測モデルと、前記入力ステップにより入力した音声とについて、前記予測モデルの特徴量と、前記入力した音声の特徴量とを比較することにより、前記タイミング予測情報を取得する
ことを特徴とする請求項10〜請求項14の何れかに記載の音声対話方法。 The prediction step includes
For the prediction model in which the response timing is determined in advance and the speech input in the input step, the timing prediction information is obtained by comparing the feature amount of the prediction model with the feature amount of the input speech. The voice dialogue method according to claim 10, wherein the voice dialogue method is obtained.
利用者による発話についての、統語的な特徴を示す統語的特徴量、及び韻律的な特徴を示す韻律的特徴量の少なくとも一方である
ことを特徴とする請求項15に記載の音声対話方法。 The feature amount is
The spoken dialogue method according to claim 15, wherein at least one of a syntactic feature indicating a syntactic feature and a prosodic feature indicating a prosodic feature of an utterance by a user is provided.
予め設定されたキーワード、単語列、形態素列、品詞列、音素列の少なくとも1つを含む情報であり、
前記韻律的特徴量は、
発話長、基本周波数の時系列情報、ピッチの時系列情報、パワーの時系列情報、及び話速の時系列情報の少なくとも1つを含む情報である
ことを特徴とする請求項16に記載の音声対話方法。 The syntactic feature is
Information including at least one of a preset keyword, word string, morpheme string, part of speech string, phoneme string,
The prosodic feature amount is:
The speech according to claim 16, characterized in that it is information including at least one of speech length, basic frequency time-series information, pitch time-series information, power time-series information, and speech speed time-series information. How to interact.
利用者の発話に重複して前記応答が行われるタイミングである
ことを特徴とする請求項10〜請求項17の何れかに記載の音声対話方法。 The response timing is
The voice interaction method according to any one of claims 10 to 17, wherein the response is made at the timing when the response is made in duplicate with the user's utterance.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011131432A JP2011175304A (en) | 2011-06-13 | 2011-06-13 | Voice interactive device and method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2011131432A JP2011175304A (en) | 2011-06-13 | 2011-06-13 | Voice interactive device and method |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007079309A Division JP4798039B2 (en) | 2007-03-26 | 2007-03-26 | Spoken dialogue apparatus and method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2011175304A true JP2011175304A (en) | 2011-09-08 |
Family
ID=44688120
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2011131432A Pending JP2011175304A (en) | 2011-06-13 | 2011-06-13 | Voice interactive device and method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2011175304A (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107767869A (en) * | 2017-09-26 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | Method and apparatus for providing voice service |
| JP2018200386A (en) * | 2017-05-26 | 2018-12-20 | トヨタ自動車株式会社 | Spoken dialogue device |
| JP2020190587A (en) * | 2019-05-20 | 2020-11-26 | カシオ計算機株式会社 | Robot control device, robot, robot control method and program |
-
2011
- 2011-06-13 JP JP2011131432A patent/JP2011175304A/en active Pending
Non-Patent Citations (4)
| Title |
|---|
| CSNG199700362005; 白井 克彦 Katsuhiko Shirai: '「音声対話」 "Spoken Dialogue" 音声対話コーパスと対話過程のモデル' 人工知能学会誌 第12巻 第1号 Journal of Japanese Society for Artificial Intelligence 第12巻, 19970101, 社団法人人工知能学会 Japanese Society for Artific * |
| CSNG200600389004; 西村 良太 Ryota NISHIMURA: '応答タイミングを考慮した雑談音声対話システム A spoken dialog system for chat-like conversations con' 第46回 言語・音声理解と対話処理研究会資料 (SIG-SLUD-A503) , 20060303, 社団法人人工知能学会 The Japanese Society for Art * |
| JPN6012060604; 西村 良太 Ryota NISHIMURA: '応答タイミングを考慮した雑談音声対話システム A spoken dialog system for chat-like conversations con' 第46回 言語・音声理解と対話処理研究会資料 (SIG-SLUD-A503) , 20060303, 社団法人人工知能学会 The Japanese Society for Art * |
| JPN6012060605; 白井 克彦 Katsuhiko Shirai: '「音声対話」 "Spoken Dialogue" 音声対話コーパスと対話過程のモデル' 人工知能学会誌 第12巻 第1号 Journal of Japanese Society for Artificial Intelligence 第12巻, 19970101, 社団法人人工知能学会 Japanese Society for Artific * |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018200386A (en) * | 2017-05-26 | 2018-12-20 | トヨタ自動車株式会社 | Spoken dialogue device |
| CN107767869A (en) * | 2017-09-26 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | Method and apparatus for providing voice service |
| JP2020190587A (en) * | 2019-05-20 | 2020-11-26 | カシオ計算機株式会社 | Robot control device, robot, robot control method and program |
| JP7342419B2 (en) | 2019-05-20 | 2023-09-12 | カシオ計算機株式会社 | Robot control device, robot, robot control method and program |
| JP2023169166A (en) * | 2019-05-20 | 2023-11-29 | カシオ計算機株式会社 | Robot, response method and program |
| JP7616290B2 (en) | 2019-05-20 | 2025-01-17 | カシオ計算機株式会社 | Robot, response method and program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10991373B1 (en) | Voice command processing for locked devices | |
| US9972318B1 (en) | Interpreting voice commands | |
| EP3489950B1 (en) | Response sentence generation apparatus, method and program | |
| US10593328B1 (en) | Voice control of remote device | |
| US20200251107A1 (en) | Voice control of remote device | |
| US10678504B1 (en) | Maintaining context for voice processes | |
| US12293756B2 (en) | Computing system for domain expressive text to speech | |
| JP5381988B2 (en) | Dialogue speech recognition system, dialogue speech recognition method, and dialogue speech recognition program | |
| JP5195405B2 (en) | Response generating apparatus and program | |
| CN108630203B (en) | Voice interaction device, processing method thereof, and program | |
| KR20200056261A (en) | Electronic apparatus and method for controlling thereof | |
| Charfuelan et al. | Expressive speech synthesis in MARY TTS using audiobook data and emotionML. | |
| US12499883B2 (en) | Interactive content output | |
| WO2017071182A1 (en) | Voice wakeup method, apparatus and system | |
| KR20230150377A (en) | Instant learning from text-to-speech during conversations | |
| US20240257808A1 (en) | Cross-assistant command processing | |
| US20230360633A1 (en) | Speech processing techniques | |
| JP4798039B2 (en) | Spoken dialogue apparatus and method | |
| EP4445364A1 (en) | Multiple wakeword detection | |
| CN105390137A (en) | Response generation method, response generation apparatus, and response generation program | |
| Mai et al. | Real-time textless dialogue generation | |
| CN114373445A (en) | Voice generation method and device, electronic equipment and storage medium | |
| JP2011175304A (en) | Voice interactive device and method | |
| US11176943B2 (en) | Voice recognition device, voice recognition method, and computer program product | |
| JP2014048443A (en) | Voice synthesis system, voice synthesis method, and voice synthesis program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110613 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121115 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121120 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130528 |