[go: up one dir, main page]

JP2018128575A - 話し終わり判定装置、話し終わり判定方法およびプログラム - Google Patents

話し終わり判定装置、話し終わり判定方法およびプログラム Download PDF

Info

Publication number
JP2018128575A
JP2018128575A JP2017021606A JP2017021606A JP2018128575A JP 2018128575 A JP2018128575 A JP 2018128575A JP 2017021606 A JP2017021606 A JP 2017021606A JP 2017021606 A JP2017021606 A JP 2017021606A JP 2018128575 A JP2018128575 A JP 2018128575A
Authority
JP
Japan
Prior art keywords
utterance
speech
determination
talk
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017021606A
Other languages
English (en)
Other versions
JP6576968B2 (ja
Inventor
節夫 山田
Setsuo Yamada
節夫 山田
伸章 廣嶋
Nobuaki Hiroshima
伸章 廣嶋
喜昭 野田
Yoshiaki Noda
喜昭 野田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017021606A priority Critical patent/JP6576968B2/ja
Publication of JP2018128575A publication Critical patent/JP2018128575A/ja
Application granted granted Critical
Publication of JP6576968B2 publication Critical patent/JP6576968B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】コストの増加を抑制しつつ、対話における発話が話し終わりの発話であるか否かを判定する。
【解決手段】本発明に係る話し終わり判定装置10は、対話における話者の交代の有無に基づき、対話における発話が話し終わりの発話であるか否かを判定する判定部11を備える。
【選択図】図1

Description

本発明は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定装置、話し終わり判定方法およびプログラムに関する。
コールセンタや窓口などでの顧客と応対担当者との対話の中から、話者の話し終わり(話し終わりの発話)を検出することで、例えば、顧客が話し終えてから、顧客の発話をまとめてシステムで解析するといった処理が可能となる。
顧客と応対担当者との対話のような複数の話者による対話における発話が話し終わりの発話であるか否かを判定する方法として、対話における発話に話し終わりの発話であるか否かの情報が付与された学習データ(話し終わり学習データ)を用いる方法がある(非特許文献1参照)。この方法では、対話における発話に話し終わりの発話であるか否かの情報が付与された学習データが利用される。そして、その学習データを用いた機械学習により、対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデルが生成される。
R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang, and C.-J. Lin. LIBLINEAR: A library for large linear classification Journal of Machine Learning Research 9(2008), 1871-1874.
一般に、話し終わりの発話には、分野ごとに表現に違いがある。そのため、非特許文献1に開示されている方法では、ある分野の話し終わり学習データを用いて生成された話し終わり判定モデルを他の分野に適用した場合、話し終わりの発話であるか否かを高精度に判定することができないことがある。判定を行いたい分野毎に、話し終わり学習データを用意することも考えられるが、分野毎に話し終わり学習データを用意することは、コストの増加を招いてしまう。
上記のような問題点に鑑みてなされた本発明の目的は、コストの増加を抑制しつつ、対話における発話が話し終わりの発話であるか否かを判定することができる話し終わり判定装置、話し終わり判定方法およびプログラムを提供することにある。
上記課題を解決するため、本発明に係る話し終わり判定装置は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定装置であって、対話における話者の交代の有無に基づき、前記対話における発話が話し終わりの発話であるか否かを判定する判定部を備える。
また、上記課題を解決するため、本発明に係る話し終わり判定方法は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定方法であって、対話における発話の話者の交代の有無に基づき、前記対話における発話が話し終わりの発話であるか否かを判定するステップを含む。
また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを上述した話し終わり判定装置として機能させる。
本発明に係る話し終わり判定装置、話し終わり判定方法およびプログラムによれば、コストの増加を抑制しつつ、対話における発話が話し終わりの発話であるか否かを判定することができる。
本発明の第1の実施形態に係る話し終わり判定装置の構成例を示すブロック図である。 本発明の第2の実施形態に係る話し終わり判定装置の構成例を示すブロック図である。 話し終わり判定モデルの生成について説明するための図である。 顧客と応対担当者との対話の一例を示す図である。 話し終わり学習データの構成例を示す図である。 話し終わり学習データの他の構成例を示す図である。 本発明の第3の実施形態に係る話し終わり判定装置の構成例を示すブロック図である。 顧客と応対担当者との対話の一例を示す図である。 図7に示す話し終わり判定モデルによる判定結果の一例を示す図である。 本発明の第4の実施形態に係る話し終わり判定装置の構成例を示すブロック図である。 図10に示す判定部による話し終わりの発話の判定について説明するための図である。 図10に示す学習データ生成部の動作について説明するための図である。 自然言語を入力とした機械学習について概念的に示す図である。 bag-of-wordsの具体例を示す図である。 従来の自然言語を入力とした機械学習の方法の問題点について説明するための図である。 本発明に係る自然言語を入力とした機械学習の方法について説明するための図である。
以下、本発明を実施するための形態について、図面を参照しながら説明する。
(第1の実施形態)
図1は、本発明の第1の実施形態に係る話し終わり判定装置10の構成例を示すブロック図である。本実施形態に係る話し終わり判定装置10は、顧客と応対担当者との対話のような複数の話者による対話における発話が、話者が伝えたい内容を話し終えた話し終わりの発話であるか否かを判定するものである。
なお、人間は常に伝えたい内容を整理してよどみなく話せるわけではなく、話の途中で考えたり、言い淀んだりする。そのため、発話者が話している途中に、音声が途切れる(無音区間が発生する)ことがある。発話とは、話者の話をこのような音声の途切れなどで区切ったものである。
図1に示す話し終わり判定装置10は、判定部11を備える。
判定部11は、複数の話者による対話(顧客と応対担当者との対話)の対話構造に基づき、対話における発話が話し終わりの発話であるか否かを判定する。具体的には、判定部11は、対話において話者が交代する話者交代の有無を検出し、話者交代の直前の発話を話し終わりの発話であると判定する。
一般に、顧客と応対担当者との対話などにおいては、例えば、顧客が問い合わせたい内容を話し終えた後、応対担当者がその問い合わせに対する回答を行い、応対担当者が回答を話し終えた後、顧客が更に問い合わせを行うといった対話構造が多い。すなわち、話者交代が起こると、その直前の発話は話者交代が起こる前の話者の話し終わりの発話であることが多いという傾向がある。判定部11は、この傾向に基づき、対話における発話が話し終わりの発話であるか否かを判定する。
なお、判定部11は、対話における発話のうち、「あー」、「えーと」、「はい」などの対話の内容に関係しないフィラーのみの発話を取り除いた上で、話者交代が起こったか否かを判定する。フィラーのみの発話は、顧客が話している最中の応対担当者の相槌などである可能性が高く、このような発話を話者交代が起こったか否かの判定に含めると、話し終わりでないにも関わらず、話者交代が起こったと判定されてしまうことがある。そこで、本実施形態においては、フィラーのみの発話を取り除いた上で、話者交代が起こったか否かを判定する。
このように本実施形態においては、話し終わり判定装置10は、対話における話者の交代の有無に基づき、対話における発話が話者の話し終わりの発話であるか否かを判定する判定部11を備える。
話者交代の直前の発話が話し終わりの発話であるという対話構造は、対話が行われている分野に関わらず、よく見られる。この対話構造を用いて対話における発話が話し終わりの発話であるか否かを判定することで、判定を行いたい分野毎に、話し終わり学習データを用意するといったコストの増加を招くことなく、対話における発話が話し終わりの発話であるか否かを判定することができる。
(第2の実施形態)
図2は、本発明の第2の実施形態に係る話し終わり判定装置10Aの構成例を示す図である。本実施形態に係る話し終わり判定装置10Aは、顧客と応対担当者との対話のような複数の話者による対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデルを生成するための話し終わり学習データを生成するものである。なお、図2において、図1と同様の構成については同じ符号を付し、説明を省略する。
図2に示す話し終わり判定装置10Aは、図1に示す話し終わり判定装置10と比較して、学習データ生成部12を追加した点が異なる。
学習データ生成部12は、対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデルを機械学習により生成するための話し終わり学習データ13を、判定部11の判定結果に基づき生成する。生成された話し終わり学習データ13は、例えば、図3に示すように、判定モデル生成部14に入力され、判定モデル生成部14による機械学習により、対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデル15が生成される。この話し終わり判定モデル15により、例えば、コールセンターにおける顧客と応対担当者との対話における発話が話し終わりの発話であるか否かが判定される。なお、話し終わり判定モデル15および判定モデル生成部14は、話し終わり判定装置10Aが備えていてもよいし、話し終わり判定装置10Aとは別の外部装置が備えていてもよい。
図4は、顧客と応対担当者との対話の一例を示す図である。
図4に示す例では、顧客は、「あの、ちょっと伺いたいのですが」という発話#1に続いて、「インターネットでの購入ですけども」という発話#2を行っている。顧客の発話#1,#2を受けて、応対担当者は、顧客の発話に対する相槌として「はい」という発話#3を行っている。
顧客は、応対担当者の発話#3に続いて、「配送料はどうなりますか」という発話#4を行っている。顧客の発話#1,#2,#4は、インターネットでの購入の際の配送料について問い合わせる内容であり、発話#4で問い合わせが終わっている。したがって、顧客の発話#4は話し終わりの発話に相当する。
応対担当者は、顧客の発話#4を受けて、「現在、インターネットでの配送料は無料です」という、顧客の問い合わせに対して回答する発話#5を行っている。応対担当者の発話#5により、顧客の問い合わせに対する回答が終わっている。したがって、応対担当者の発話#5は話し終わりの発話に相当する。
図4に示す顧客と応対担当者との対話を例として、話し終わり判定モデル15を生成するための話し終わり学習データ13について図5を参照して説明する。
上述したように、対話の中にフィラーのみの発話が含まれると、実際には話者が話し終わっていないにも関わらず、話者交代が起こったと判定されることがある。そこで、話し終わり学習データ13においては、フィラーのみの発話は取り除かれる。そのため、話し終わり学習データ13としては、図5に示すように、応対担当者によるフィラー(「はい」)のみの発話#3を除いた発話#1,#2,#4,#5が抽出される。そして、各発話に対して話し終わりの発話であるか否かを示す情報(話し終わりフラグ)が付与される。図5に示す例では、話し終わりフラグが「0」である場合には話し終わりの発話ではなく、話し終わりフラグが「1」である場合には話し終わりの発話であることを示す。したがって、話し終わりの発話である発話#4,#5の話し終わりフラグに「1」が設定され、他の発話#1,#2の話し終わりフラグに「0」が設定される。このように、話し終わり学習データ13は、顧客や応対担当者の発話と、その発話が話し終わりの発話であるか否かを示す情報とが対応付けられたデータである。
なお、図5においては、フィラーのみの発話を取り除く例を説明したが、これに限られるものではない。例えば、フィラーのみの発話以外の発話にフィラーが含まれている場合には、そのフィラーは取り除いてもよいし、そのフィラーはそのままでもよい。
また、図5においては、発話毎に話し終わりフラグを設定する例を用いて説明したが、これに限られるものではなく、話し終わりまでの発話を順次つなげた発話に話し終わりフラグを設定してもよい。
例えば、図6に示すように、発話#1は話し終わりの発話ではないため、発話#1の話し終わりフラグに「0」が設定される。次に、顧客の発話#1と、発話#1に続く顧客の発話#2とをつなげた発話が、話し終わり学習データ13に追加される。発話#2は話し終わりの発話ではないため、発話#1と発話#2とをつなげた発話は話し終わりの発話ではない。そのため、発話#1と発話#2とをつなげた発話の話し終わりフラグに「0」が設定される。
次に、顧客の発話#1と、発話#1に続く発話#2と、発話#2に続く顧客の発話#4(フィラーのみの発話#3を除く)とをつなげた発話が話し終わり学習データ13に追加される。発話#4は話し終わりの発話であるため、発話#1と発話#2と発話#4とをつなげた発話は話し終わりの発話である。そのため、発話#1と発話#2と発話#4をつなげた発話の話し終わりフラグに「1」が設定される。このように、話し終わりまでの発話を順次つなげた発話と、その発話の話し終わりフラグとを話し終わり学習データ13に追加してもよい。
図5,6に示すような話し終わり学習データ13は、顧客と応対担当者との対話から手動により生成することができる。ただし、このような話し終わり学習データ13を、話し終わり判定を行いたい分野毎に生成するのはコストがかかってしまう。
そこで、本実施形態においては、対話構造から対話における発話が話し終わりの発話であるか否かを判定し、その判定結果を話し終わり学習データ13として用いる。こうすることで、話し終わり判定を行いたい分野の対話から自動的に話し終わり学習データ13を生成することができる。そして、生成した話し終わり学習データ13を用いて話し終わり判定モデル15を生成することで、コストの増加を抑制しつつ、対話における発話が話し終わりの発話であるか否かを判定することができる。
(第3の実施形態)
図7は、本発明の第3の実施形態に係る話し終わり判定装置10Bの構成例を示す図である。なお、図7において、図2,3と同様の構成については同じ符号を付し、説明を省略する。
図7に示す話し終わり判定装置10Bは、図2に示す話し終わり判定装置10Aと比較して、判定モデル生成部14および話し終わり判定モデル15を追加した点が異なる。すなわち、本実施形態においては、話し終わり判定装置10Bは、対話構造を用いた話し終わりか否かの判定結果から話し終わり学習データ13を生成し、生成した話し終わり学習データ13を用いて話し終わり判定モデル15を生成する。そして、話し終わり判定モデル15による、対話における発話が話し終わりの発話であるか否かの判定結果を出力する。
次に、本実施形態に係る話し終わり判定装置10Bの動作について、より詳細に説明する。
事前処理として、対話における発話に話し終わりフラグが付与された話し終わり学習データ13を用いた機械学習により、対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデル15が生成される。なお、事前処理で用いる話し終わり学習データ13は、例えば、手動により話し終わりフラグが付与されたデータ、前述した対話構造を利用した判定により話し終わりフラグが付与されたデータなどを用いることができる。
機械学習の手法は、学習データに基づき適切なモデルを生成することできれば、特に限定されることはなく、ディープラーニング、サポートベクタマシンなどの種々の手法を用いることができる。話し終わりの発話であるか否かの判定に利用する情報(素性)についても特に限定されることはなく、正しい判定が可能となるように種々のものを用いることができる。
次に、オンライン処理(発話に応じたリアルタイム処理)として、話し終わり判定装置10Aに対して、顧客と応対担当者との対話の音声データ(対話データ)が入力され、話し終わり判定モデル15を用いて、その対話データが示す対話における発話が話し終わりの発話であるか否かが判定される。
以下では、対話データとして、図8に示すような、顧客と応対担当者との対話データが入力されたとする。なお、話し終わり判定装置10Aには、顧客の発話と応対担当者の発話とが異なるチャンネル(2チャンネル)で入力される。
図8に示す例では、顧客は、「えーと、あんまり詳しくないので」という発話#11の後、「どれがいいかよくわからないんですけど」という発話#12を行っている。
応対担当者は、顧客の発話#12の後、顧客の発話に対する相槌として、「はい」というフィラーのみの発話#13を行っている。顧客は、応対担当者の発話#13の後、「どの商品がおすすめですか」という発話を行っている。おすすめの商品に問い合わせる顧客の発話が終わったので、応対担当者は、おすすめの商品を挙げる発話#15を行っている。
話し終わり判定モデル15は、このような対話において、図9に示すように、顧客の発話#11は話し終わりの発話ではないと判定し、顧客の発話#12,#14は話し終わりの発話であると判定したとする。話し終わり判定装置10Bは、この話し終わり判定モデル15の判定結果を出力する。
なお、本実施形態においては、話し終わり判定装置10Bが学習データ生成部12や判定モデル生成部14を備える例を用いて説明したが、これに限られるものではなく、話し終わり判定装置10Bとは別の外部装置が、学習データ生成部12や判定モデル生成部14を備えていてよい。この場合、話し終わり判定装置10Bは、外部装置により生成された話し終わり判定モデル15を取得し、取得した話し終わり判定モデル15の判定結果を出力する。
(第4の実施形態)
図10は、本発明の第4の実施形態に係る話し終わり判定装置10Cの構成例を示す図である。なお、図10において、図7と同様の構成については同じ符号を付し、説明を省略する。
図10に示す話し終わり判定装置10Cは、図7に示す話し終わり判定装置10Bと比較して、学習データ生成部12を学習データ生成部12Cに変更した点が異なる。
学習データ生成部12Cは、判定部11の判定結果と話し終わり判定モデル15の判定結果とが入力され、これらの判定結果に基づき話し終わり学習データ13を生成する。
次に、本実施形態に係る話し終わり判定装置10Cの動作について説明する。本実施形態に係る話し終わり判定装置10Cにおいても、第3の実施形態に係る話し終わり判定装置10Bと同様に事前処理およびオンライン処理が行われる。
次に、事後処理として、判定部11は、対話構造に基づき、入力された対話データが示す対話における発話が話し終わりの発話であるか否かを判定する。
まず、判定部11は、対話における発話のうち、フィラーのみの発話(発話#13)を取り除く。そして、判定部11は、各発話に対し、その発話の後に続く発話との間で話者交代が起こったか否かを判定する。なお、上述したように、顧客の発話と応対担当者の発話とが異なるチャンネルで入力される。判定部11は、各チャンネルの入力を監視することで、話者交代が起こったか否かを判定することができる。そして、判定部11は、話者交代が起こったと判定すると、話者交代の直前の発話を話し終わりの発話であると判定し、話者交代が起こっていないと判定すると、その直前の発話を話し終わりの発話でないと判定する。
図11に示すように、発話#11と発話#11に続く発話#12との間では、発話は顧客のままであり、話者交代は起こっていない。また、発話#12と発話#12に続く発話#14(フィラーのみの発話#3は除く)との間では、発話は顧客のままであり、話者交代は起こっていない。また、発話#14と発話#14に続く発話#15との間では、発話は顧客から応対担当者に交代しており、話者交代が起こっている。そのため、判定部11は、図8に示すように、顧客の発話#11,#12を話し終わりの発話でないと判定し、顧客の発話#14を話し終わりの発話であると判定する。
学習データ生成部12Cは、話し終わり判定モデル15による判定結果と、判定部11による判定結果とを比較する。そして、学習データ生成部12Cは、図12に示すように、話し終わり判定モデル15による判定結果と、判定部11による判定結果とが一致する発話を話し終わり学習データ13に追加する。
図12に示す例では、話し終わり判定モデル15と判定部11とで、発話#11の判定結果(話し終わりの発話でない)および発話#14の判定結果(話し終わりの発話である)が一致している。学習データ生成部12Cは、発話#11,#14とその判定結果とを話し終わり学習データ13として追加する。話し終わり判定モデル15と判定部11とで判定結果が一致している場合、その判定結果の信頼性は高いと考えられる。そのため、話し終わり判定モデル15と判定部11とで一致する判定結果を話し終わり学習データ13とすることで、その話し終わり学習データ13を用いた機械学習により、話し終わり判定モデル15の信頼性の向上を図ることができる。
なお、学習データ生成部12Cは、話し終わり判定モデル15による判定結果と、判定部11による判定結果とを比較することなく、判定部11による判定結果を話し終わり学習データ13に追加してもよい。
このように本実施形態においては、話し終わり判定装置10Cは、対話における発話が話し終わりの発話であるか否かが、判定部11と話し終わり判定モデル15とで一致する判定結果を、話し終わり学習データ13に追加する学習データ生成部12Cを備える。
話し終わり判定モデル15と判定部11とで一致する判定結果を話し終わり学習データ13とすることで、その話し終わり学習データ13を用いた機械学習により、話し終わり判定モデル15の信頼性の向上を図ることができる。
なお、上述したように、話し終わり学習データ13は、発話単位ではなく、連続する複数の発話をまとめた(蓄積した)単位で生成してもよい。例えば、1つの発話が話し終わりの発話でない場合、その発話に話し終わりフラグを付与するとともに、その発話と次の発話とをつなげた発話に対しても話し終わりフラグを付与して、話し終わり学習データ13を生成してもよい。この場合、話し終わりの発話であると判定されるまで、発話が順次つなげられる。そして、話し終わりの発話であると判定されると、発話の蓄積がリセットされ、話し終わりの発話であると判定された発話の次の発話について、話し終わりの発話であるか否かが判定される。
また、顧客と応対担当者との対話は、音声認識処理によりテキスト化した上で、話し終わり判定モデル15での処理が行われる。ここで、音声認識処理においては、誤りが発生することがある。そこで、発話に含まれる単語の音声認識処理による認識結果として複数の候補を用意するN−best法を用いた処理を行ってもよい。
図13は、自然言語を入力とした機械学習について概念的に示す図である。
自然言語を入力とする機械学習では、機械学習(サポートベクターマシン(SVM))の入力に合わせた数値ベクトル化を行うために、入力テキストに対する素性計算が行われる。すなわち、学習時や判定時に、入力テキストに対して、機械学習の入力に合わせた数値ベクトル化を行う必要がある。このような素性計算としては、例えば、文章に単語が含まれているかどうかのみを考慮し、単語の並び方などは考慮しないモデル(bag-of-words)が用いられるのが一般的である。
図14は、bag-of-wordsの具体例を示す図である。
bag-of-wordsでは、文章に単語が含まれていれば、その単語に対応する数値を1とし、文章に単語が含まれているか否かを表現する入力ベクトルが計算される。入力テキストが「インターネットで定期預金の解約はできますか」であるとすると、入力テキストに対して形態素解析が行われる。
具体的には、図14に示すように、大量のテキストの形態素解析により、テキストに出現する単語をカバーするようにリスト化され、各単語に単語番号が割り当てられた単語リストが事前に生成される。そして、単語リストに含まれる単語のうち、入力テキストに出現する単語の単語番号に対応する入力ベクトルの値が「1」となり。入力テキストに出現しない単語の単語番号に対応する入力ベクトルの値が「0」となる。
なお、形態素解析の代わりに、品詞を用いるbag-of-posなどの素性計算方法、bag-of-wordsとbag-of-posとを組み合わせた素性計算も用いてもよい。
話し終わり判定モデル15での処理のために、対話の音声を音声認識処理によりテキスト化した音声認識結果テキストを形態素解析し、形態素解析の結果からbag-of-wordsなどで素性計算を行うことが考えられる。
ここで、音声認識処理に誤りが生じたとする。例えば、「インターネットで定期預金の解約はできますか」という音声に対して、図15に示すように、「インターネットで敵よ金の害はできますか」と誤った音声認識が行われたとする。このような誤った音声認識結果テキストに対して形態素解析が行われ、入力ベクトルが計算されると、誤りが蓄積され、正しい入力音声を反映した素性計算を行うことができない。
このように、音声認識結果を機械学習の入力とする従来方法では、誤った形態素単位となりやすいという問題がある。このような問題が生じる原因としては、音声認識処理に用いられる音声認識辞書と、形態素解析に用いられる形態素解析辞書とが異なる場合が多く、これらの辞書に登録される単語の違いにより不整合が生じることがある。また、別の原因としては、形態素解析は、人が読める正常な文章を対象にしているため、音声認識結果テキストの誤りにより、誤った形態素解析が行われることがある。
また、音声認識結果を機械学習の入力とする従来方法では、音声認識処理に誤りが生じると、その誤りを含んだまま素性計算を行うため、正しい入力音声を反映する素性にならないという問題がある。
そこで、本発明においては、図16に示すように、音声認識処理の結果得られる、N位候補の単語系列(N−best結果)を、機械学習での素性計算(bag-of-wordsなど)に用いる。
音声認識処理では、音声認識辞書に登録されている登録(品詞情報なども含む)の組み合わせの中で、最も入力音声に近い単語列を探索するという処理が行われる。そのため、音声認識処理の結果として、単語(品詞情報なども含む)の列を得ることができる。また、入力音声への近さの順に、1位候補以外のN位候補までを得ることができる。そのため、仮に、1位候補が誤りであっても、N位候補内に正しい単語が含まれる可能性が高くなる。
このように本発明においては、形態素解析処理を行わず、音声認識処理の結果得られる、N位候補の単語系列を用いる。そのため、形態素解析による誤りが生じず、誤りも含めた音声認識処理の結果がそのまま素性に反映される。また、形態素解析を行わないため、処理量の削減を図ることができる。また、形態素解析を行わないため、形態素解析辞書を用意する必要がない。また、N位候補までの音声認識結果を素性に反映させるため、1位候補に音声認識誤りが生じても、N位候補内に正しい単語が含まれている可能性が高く、それらを素性計算に反映することができる。
実施形態では特に触れていないが、話し終わり判定装置10として機能するコンピュータが行う各処理を実行するためのプログラムが提供されてもよい。また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD−ROMやDVD−ROMなどの記録媒体であってもよい。
上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
10,10A,10B,10C 話し終わり判定装置
11 判定部
12,12C 学習データ生成部
13 話し終わり学習データ
14 判定モデル生成部
15 話し終わり判定モデル

Claims (8)

  1. 複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定装置であって、
    対話における話者の交代の有無に基づき、前記対話における発話が話し終わりの発話であるか否かを判定する判定部を備えることを特徴とする話し終わり判定装置。
  2. 請求項1に記載の話し終わり判定装置において、
    対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデルの機械学習に用いる学習データを、前記判定部の判定結果に基づき生成する学習データ生成部をさらに備えることを特徴とする話し終わり判定装置。
  3. 請求項2に記載の話し終わり判定装置において、
    前記学習データ生成部は、対話における発話が話し終わりの発話であるか否かが、前記判定部と前記話し終わり判定モデルとで一致する判定結果を、前記学習データに追加することを特徴とする話し終わり判定装置。
  4. 請求項2または3に記載の話し終わり判定装置において、
    前記話し終わり判定モデルを用いて、前記対話における発話が話者の話し終わりの発話であるか否かを判定し、判定結果を出力することを特徴とする話し終わり判定装置。
  5. 複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定装置における話し終わり判定方法であって、
    対話における発話の話者の交代の有無に基づき、前記対話における発話が話し終わりの発話であるか否かを判定するステップを含むことを特徴とする話し終わり判定方法。
  6. 請求項5に記載の話し終わり判定方法において、
    対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデルの機械学習に用いる学習データを、前記判定の結果に基づき生成するステップをさらに含むことを特徴とする話し終わり判定方法。
  7. 請求項6に記載の話し終わり判定方法において、
    対話における発話が話し終わりの発話であるか否かが、前記話者の交代の有無に基づく判定と前記話し終わり判定モデルとで一致する判定結果を、前記学習データに追加することを特徴とする話し終わり判定方法。
  8. コンピュータを請求項1から4のいずれか一項に記載の話し終わり判定装置として機能させるためのプログラム。
JP2017021606A 2017-02-08 2017-02-08 話し終わり判定装置、話し終わり判定方法およびプログラム Active JP6576968B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017021606A JP6576968B2 (ja) 2017-02-08 2017-02-08 話し終わり判定装置、話し終わり判定方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017021606A JP6576968B2 (ja) 2017-02-08 2017-02-08 話し終わり判定装置、話し終わり判定方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2018128575A true JP2018128575A (ja) 2018-08-16
JP6576968B2 JP6576968B2 (ja) 2019-09-18

Family

ID=63172906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017021606A Active JP6576968B2 (ja) 2017-02-08 2017-02-08 話し終わり判定装置、話し終わり判定方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6576968B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020036195A1 (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 話し終わり判定装置、話し終わり判定方法およびプログラム
WO2020036193A1 (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 学習データ生成装置、学習データ生成方法およびプログラム
WO2020121616A1 (ja) * 2018-12-11 2020-06-18 日本電気株式会社 処理システム、処理方法及びプログラム
CN111416833A (zh) * 2019-01-08 2020-07-14 北京京东尚科信息技术有限公司 一种判断会话结束的方法和装置
WO2021255840A1 (ja) * 2020-06-16 2021-12-23 日本電信電話株式会社 推定方法、推定装置およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61239358A (ja) * 1985-04-15 1986-10-24 Sharp Corp 音声入力による文書作成方式

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61239358A (ja) * 1985-04-15 1986-10-24 Sharp Corp 音声入力による文書作成方式

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7007616B2 (ja) 2018-08-15 2022-01-24 日本電信電話株式会社 学習データ生成装置、学習データ生成方法およびプログラム
WO2020036193A1 (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 学習データ生成装置、学習データ生成方法およびプログラム
WO2020036195A1 (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 話し終わり判定装置、話し終わり判定方法およびプログラム
JPWO2020036193A1 (ja) * 2018-08-15 2021-06-10 日本電信電話株式会社 学習データ生成装置、学習データ生成方法およびプログラム
WO2020121616A1 (ja) * 2018-12-11 2020-06-18 日本電気株式会社 処理システム、処理方法及びプログラム
JPWO2020121616A1 (ja) * 2018-12-11 2021-10-14 日本電気株式会社 処理システム、処理方法及びプログラム
US11818300B2 (en) 2018-12-11 2023-11-14 Nec Corporation Processing system, processing method, and non-transitory storage medium
JP7180687B2 (ja) 2018-12-11 2022-11-30 日本電気株式会社 処理システム、処理方法及びプログラム
US11503161B2 (en) 2018-12-11 2022-11-15 Nec Corporation Processing system, processing method, and non-transitory storage medium
CN111416833A (zh) * 2019-01-08 2020-07-14 北京京东尚科信息技术有限公司 一种判断会话结束的方法和装置
CN111416833B (zh) * 2019-01-08 2024-02-09 北京京东尚科信息技术有限公司 一种判断会话结束的方法、装置、电子设备和可读介质
WO2021256043A1 (ja) * 2020-06-16 2021-12-23 日本電信電話株式会社 推定装置、推定方法、学習装置、学習方法およびプログラム
JPWO2021256043A1 (ja) * 2020-06-16 2021-12-23
WO2021255840A1 (ja) * 2020-06-16 2021-12-23 日本電信電話株式会社 推定方法、推定装置およびプログラム
JP7425368B2 (ja) 2020-06-16 2024-01-31 日本電信電話株式会社 推定装置、推定方法、学習装置、学習方法およびプログラム

Also Published As

Publication number Publication date
JP6576968B2 (ja) 2019-09-18

Similar Documents

Publication Publication Date Title
JP4786384B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
US11037553B2 (en) Learning-type interactive device
JP6576968B2 (ja) 話し終わり判定装置、話し終わり判定方法およびプログラム
KR102097710B1 (ko) 대화 분리 장치 및 이에서의 대화 분리 방법
JP6654611B2 (ja) 成長型対話装置
CN112309406B (zh) 声纹注册方法、装置和计算机可读存储介质
JP6580281B1 (ja) 翻訳装置、翻訳方法、および翻訳プログラム
US20140350934A1 (en) Systems and Methods for Voice Identification
JP5506738B2 (ja) 怒り感情推定装置、怒り感情推定方法およびそのプログラム
JP5731998B2 (ja) 対話支援装置、対話支援方法および対話支援プログラム
CN101154220A (zh) 机器翻译装置和方法
WO2010021368A1 (ja) 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
CN112908308B (zh) 一种音频处理方法、装置、设备及介质
JP2015049254A (ja) 音声データ認識システム及び音声データ認識方法
JP2013205842A (ja) プロミネンスを使用した音声対話システム
JP7007617B2 (ja) 話し終わり判定装置、話し終わり判定方法およびプログラム
JP7177348B2 (ja) 音声認識装置、音声認識方法およびプログラム
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2019197182A (ja) 音声対話システム、音声対話方法及びプログラム
JP6755633B2 (ja) 用件判定装置、用件判定方法およびプログラム
JP2010197644A (ja) 音声認識システム
CN113763921B (zh) 用于纠正文本的方法和装置
JP6615803B2 (ja) 用件判定装置、用件判定方法およびプログラム
Tan et al. Addressing accent mismatch In Mandarin-English code-switching speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180507

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190821

R150 Certificate of patent or registration of utility model

Ref document number: 6576968

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350