WO2018147193A1

WO2018147193A1 - モデル学習装置、推定装置、それらの方法、およびプログラム

Info

Publication number: WO2018147193A1
Application number: PCT/JP2018/003644
Authority: WO
Inventors: 厚志安藤; 歩相名神山; 哲小橋川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2017-02-08
Filing date: 2018-02-02
Publication date: 2018-08-16
Anticipated expiration: 2019-08-08
Also published as: US20190392348A1; JPWO2018147193A1; US11521641B2; JP6780033B2

Abstract

モデル学習時に、会話における発話者の満足状態の変化パターンの正解値を表す満足状態変化パターン正解値、および、会話で各発話が行われた際の発話者の満足状態の正解値をそれぞれ表す満足状態正解値を用い、予め定められた満足状態の変化パターンのそれぞれについて、満足状態の状態系列における遷移重みの集合を含む満足状態変化パターンモデルを得、学習用発話特徴量および学習用発話特徴量に対応する学習用発話を行った発話者の満足状態の正解値を用い、発話者の満足状態が与えられた場合における発話特徴量の事後確率を得るための満足状態推定モデルを得る。推定時に、入力発話特徴量、ならびに、満足状態変化パターンモデルおよび満足状態推定モデルを用い、入力発話特徴量に対応する発話を行った発話者の満足状態の推定値を得る。

Description

モデル学習装置、推定装置、それらの方法、およびプログラム

　本発明は、発話者の満足状態を推定する技術に関する。

　コールセンタ運営において、通話から顧客の満足状態を推定する技術が求められている。ここで、顧客の満足状態とは、顧客が満足や不満を表出させたかを示す段階的カテゴリであり、例えば満足・普通・不満などの３段階を指す。この技術は、顧客が満足した頻度をオペレータごとに集計することでオペレータ評価を自動化する、満足した発話を音声認識しテキスト解析することで顧客の要望を調査する、などに応用可能である。上記の類似技術として、通話から顧客の満足や不満、怒りを推定する技術が非特許文献１，２で提案されている。非特許文献１では、顧客の話速などの話し方の特徴と、競合他社の製品名の有無などの言語的特徴を用いてある時刻における顧客の満足／不満を推定する。非特許文献２では、顧客の声の高さや大きさなどの韻律特徴と、相槌の頻度などの対話特徴を用いてある時刻における顧客の怒り／非怒りを推定する。いずれの技術でも、機械学習技術を用いて大量の通話から各特徴量と顧客の満足／不満・怒りとの関係性を学習し、推定に利用する。

Youngja Park, Stephen C. Gates, "Towards Real-Time Measurement of Customer Satisfaction Using Automatically Generated Call Transcripts," in Proceedings of the 18th ACM conference on Information and knowledge management, pp. 1387-1396, 2009. 野本済央、小橋川哲、田本真詞、政瀧浩和、吉岡理、高橋敏、"発話の時間的関係性を用いた対話音声からの怒り感情推定," 電子情報通信学会論文誌、Vol. J96-D, No. 1, pp. 15-24, 2013.

　従来技術はいずれも、ある時刻まで、またはその前後の通話の特徴から顧客の満足状態を推定する。一方で、顧客の満足状態には時系列的な関連性があると考えられる。しかし、顧客の満足状態がどのように変化するかについて調査した文献はこれまで存在しない。このことは、通話における顧客の満足状態を推定する場合のみならず、会話における発話者の満足状態を推定する場合に一般化できる。本発明の課題は、発話者の満足状態の変化を考慮して満足状態を推定することである。

　モデル学習時に、会話における発話者の満足状態の変化パターンの正解値を表す満足状態変化パターン正解値、および、会話で各発話が行われた際の発話者の満足状態の正解値をそれぞれ表す満足状態正解値を用い、予め定められた満足状態の変化パターンのそれぞれについて、満足状態の状態系列（状態遷移系列）における遷移重みの集合を含む満足状態変化パターンモデルを得て出力する。また、学習用発話特徴量および学習用発話特徴量に対応する学習用発話を行った発話者の満足状態の正解値を用い、発話者の満足状態が与えられた場合における発話特徴量の事後確率を得るための満足状態推定モデルを得て出力する。

　推定時に、入力発話特徴量、ならびに、満足状態変化パターンモデルおよび満足状態推定モデルを用い、入力発話特徴量に対応する発話を行った発話者の満足状態の推定値を得て出力する。

　これにより、発話者の満足状態の変化を考慮して満足状態を推定することができる。

図１は実施形態のモデル学習装置の機能構成を例示したブロック図である。図２は実施形態の推定装置の機能構成を例示したブロック図である。図３は満足状態の変化パターンの例示である。図４は満足状態の時間変化を例示した図である。図５は満足状態変化パターンモデル構造を例示した図である。図６は満足状態変化パターンモデル構造を例示した図である。

　本発明の実施形態を説明する。
　［概要］
　本形態の概要を説明する。本形態では、会話における発話者の満足状態の変化パターンを所定個通りの表現で分類しておき、変化パターンそれぞれを確率モデルで表現して満足状態の推定に利用する。モデル学習時には、会話における発話者の満足状態の変化パターンの正解値を表す満足状態変化パターン正解値、および、会話で各発話が行われた際の発話者の満足状態の正解値をそれぞれ表す満足状態正解値を用い、予め定められた満足状態の変化パターンのそれぞれについて、満足状態の状態系列（状態遷移系列）における遷移重みの集合を含む満足状態変化パターンモデルを得、学習用発話特徴量および学習用発話特徴量に対応する学習用発話を行った発話者の満足状態の正解値を用い、発話者の満足状態が与えられた場合における発話特徴量の事後確率を得るための満足状態推定モデルを得る。満足状態の推定時には、入力発話特徴量、ならびに、モデル推定で得られた満足状態変化パターンモデルおよび満足状態推定モデルを用い、入力発話特徴量に対応する発話を行った発話者の満足状態の推定値を得る。

　「会話」の一例は顧客とコールセンタとの間で行われる通話であるが、これは本発明を限定するものではない。「会話」が電話回線を通じて行われる通話であってもよいし、インターネットを通じて行われる通話であってもよいし、ローカル回線を通じて行われる通話であってもよい。「会話」が通話ではなく、二人以上の人間が対面して行う対話、談話、打ち合わせなどの会話であってもよい。「会話」は人間と人間との間で行われてもよいし、人間と自動対話装置（人工知能を用いた対話装置など）との間で行われてもよい。「発話者」は「会話」において「発話」を行う特定の一人を意味する。例えば、「会話」が顧客とコールセンタとの間で行われる通話の場合には顧客が「発話者」であり、「会話」が二人以上の人間が対面して行うものの場合には会話に参加している特定の一人が「発話者」であり、「会話」が人間と自動対話装置との間で行われるものの場合には自動対話装置との会話を行う人間が「発話者」である。

　「満足状態」は「発話者」の満足度合（満足の程度）を意味する。「満足状態」は複数の分類に区分されたものであってもよいし、数値化されたものであってもよい。前者の場合、「満足状態」は２つの分類（例えば、満足と不満の２つの分類）に区分されたものであってもよいし、３つの分類（例えば、満足と普通と不満の３つの分類）に区分されたものであってもよいし、４つ以上の分類に区分されたものであってもよい。

　「変化パターン」は「会話」における「発話者」の「満足状態」がどのように変化するのかを表すパターンである。言い換えると、「変化パターン」は「会話」における複数の時点での「満足状態」の時間変化を表すパターンである。「変化パターン」の種類および個数は予め定められている。「変化パターン」を利用することで、推定された「満足状態」の遷移から「発話者」の「満足状態」が何れの「変化パターン」に当てはまっているか、次にどの「満足状態」に遷移する可能性が高いか、を推定できる。「変化パターン」の種類および個数に限定はない。発明者は、「満足状態」が「満足」「普通」「不満」のうちの何れかの状態であるとして、大量の通話を聴取して分析した結果、コールセンタ通話における顧客（発話者）の「満足状態」の「変化パターン」が以下の９通りに分類できることを見出した（図３）。
（１）普通→満足：普通から満足に変化するパターン
（２）普通→不満→満足：普通から不満に変化し、さらに満足に変化するパターン
（３）不満→満足：不満から満足に変化するパターン
（４）普通→普通：普通が継続するパターン
（５）普通→不満→普通：普通から不満に変化し、さらに普通に変化するパターン
（６）不満→不満：不満が継続するパターン
（７）普通→不満：普通から不満に変化するパターン
（８）不満→普通：不満から普通に変化するパターン
（９）満足→満足：満足が継続するパターン
　すなわち、「満足状態」が「満足」「普通」および「不満」のうちの何れかの状態である場合、「変化パターン」は上記の（１）から（９）のうちの何れかのパターンであることが望ましい。なお、（９）の「会話」の開始時点での満足状態は「満足」であり、（１）（２）（４）（５）（７）の「会話」の開始時点での満足状態は「普通」であり、（３）（６）（８）の「会話」の開始時点での満足状態は「不満」である。（１）（２）（３）（９）の「会話」の終了時点での満足状態は「満足」であり、（４）（５）（８）の「会話」の終了時点での満足状態は「普通」であり、（６）（７）の「会話」の終了時点での満足状態は「不満」である。このように、「会話」の開始時点での満足状態が高い場合（「満足」または「普通」の場合）には、「会話」の終了時点での満足状態も高い傾向にある。「会話」の終了時点での満足状態が「会話」の開始時点での満足状態以上となる場合は、それ以外の場合よりも少ない。なお、満足状態は「満足」が最も高く、「普通」が次に高く、「不満」が最も低いものとする。

　ここで、「会話」における「発話者」の「満足状態」の変化は多様である。図４に例示するように、複数の時点において同じ満足状態が継続される場合（Ｃ１）もあれば、満足状態が変化する場合もある（Ｃ２）。そのため、実際の「会話」における「発話者」の満足状態の変化が、予め定められた「変化パターン」に当てはまるとは限らない。このような複雑な変化を表現するため、「変化パターン」ごとに、満足状態の変化を確率モデル（満足状態変化パターンモデル）で表現する。すなわち、「変化パターン」ごとに、「満足状態」の状態系列における遷移重み（例えば、遷移確率）の集合を含む「満足状態変化パターンモデル」が生成される。言い換えると、状態系列における「満足状態」間の遷移重みの集合を含むモデルが「満足状態変化パターンモデル」である。なお、「満足状態」の状態系列とは、「会話」の開始から終了までに遷移し得る「満足状態」からなる系列を意味する。「変化パターン」のモデル化には、例えば、隠れマルコフモデル（Hidden Markov Model:HMM）を用いる（参考文献１：徳田恵一、”音声情報処理技術の最先端：1．隠れマルコフモデルによる音声認識と音声合成”、情報処理、Vol. 45, No. 10, pp. 1005 - 1011, 2004.）。多様な満足状態の変化を適切にモデル化するため、「変化パターン」のモデル化には、鎖状ではなく分岐が存在するLeft-to-Right型のHMMが用いられることが望ましい。図５に分岐が存在するLeft-to-Right型のHMMにおける「満足状態」の状態系列を例示する。この例では、「会話」の開始時点の「満足状態」Ｓ_０から、時点I, II, IIIそれぞれの「満足状態」を遷移して、終了時点の「満足状態」Ｓ_４に至る。時点I, II, IIIの「満足状態」は、それぞれＳ_１＝満足、Ｓ_２＝普通、Ｓ_３＝不満の３つに分岐している。「変化パターン」のモデル化に用いる「満足状態」の状態系列を「満足状態変化パターンモデル構造」と呼ぶ。「満足状態変化パターンモデル」は「変化パターン」ごとに得られるが、「満足状態変化パターンモデル構造」はすべての「変化パターン」について同一であることが望ましい。すなわち、すべての「変化パターン」について同一の「満足状態変化パターンモデル構造」を用い、「変化パターン」のそれぞれについて「満足状態変化パターンモデル」を得ることが望ましい。「変化パターン」に応じて「満足状態変化パターンモデル構造」を変更すると、「満足状態変化パターンモデル構造」の傾向が「満足状態変化パターンモデル」に表れてしまい、適切に「変化パターン」をモデル化できないことがあるからである。ただし、適切に「変化パターン」をモデル化できるのであれば、「満足状態変化パターンモデル構造」がすべての「変化パターン」について同一でなくてもよい。

　［実施形態の詳細］
　以下、図面を参照して本形態を具体的に説明する。
　＜構成＞
　図１に例示するように、本形態のモデル学習装置１１は、学習用発話記憶部１１１ａ、満足状態正解値記憶部１１１ｂ、満足状態変化パターン正解値記憶部１１１ｃ、満足状態変化パターンモデル構造記憶部１１１ｄ、満足状態推定モデル記憶部１１１ｅ、満足状態変化パターンモデル記憶部１１１ｆ、満足状態変化パターンモデル学習部１１２、音声区間検出部１１３、発話特徴量抽出部１１４、および満足状態推定モデル学習部１１５を有する。図２に例示するように、本形態の推定装置１２は、入力部１２１、音声区間検出部１２２、発話特徴量抽出部１２３、および状態推定部１２４を有する。本形態のモデル学習装置１１および推定装置１２のそれぞれは、例えば、ＣＰＵ（central processing unit）等のプロセッサ（ハードウェア・プロセッサ）およびＲＡＭ（random-access memory）・ＲＯＭ（read-only memory）等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは１個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めＲＯＭ等に記録されていてもよい。また、ＣＰＵのようにプログラムが読み込まれることで機能構成を実現する電子回路（circuitry）ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、１個の装置を構成する電子回路が複数のＣＰＵを含んでいてもよい。

　＜モデル学習処理＞
　まず、モデル学習装置１１（図１）が行うモデル学習処理を説明する。
　≪前処理≫
　前処理として、モデル学習に必要な「学習用発話」がモデル学習装置１１（図１）の学習用発話記憶部１１１ａに格納され、「満足状態変化パターン正解値」が満足状態変化パターン正解値記憶部１１１ｃに格納され、「満足状態正解値」が満足状態正解値記憶部１１１ｂに格納され、「満足状態変化パターンモデル構造」が満足状態変化パターンモデル構造記憶部１１１ｄに格納される。「学習用発話」は、複数の「会話」のそれぞれでなされた「発話者」による「発話」の時系列音声データである。「学習用発話」は「会話」を行っている「発話者」の「発話」内容を収録することで得られる。「満足状態変化パターン正解値」は、「会話」のそれぞれにおける「発話者」の満足状態の「変化パターン」の正解値を表す。「満足状態変化パターン正解値」は、「発話者」が「会話」における自らの満足状態の変化がどの「変化パターン」に該当するかを回答し、それらの回答に基づいて人手で設定されたものである。本形態の「満足状態」は「満足」「普通」「不満」の３状態の何れかであり、「満足状態変化パターン正解値」は、前述の（１）から（９）の９個の「変化パターン」の何れかである（図３）。「満足状態正解値」は、これらの「会話」で各発話が行われた際の「発話者」の「満足状態」の正解値をそれぞれ表す。すなわち、「満足状態正解値」は、「発話者」によって各発話が行われた時点での当該「発話者」の「満足状態」の正解値を表す。「満足状態正解値」は、「発話者」が各「発話」を行った時点での「満足状態」を回答し、それらの回答に基づいて人手で設定されたものである。「満足状態変化パターンモデル構造」は、「変化パターン」のモデル化に用いる「満足状態」の状態系列である。「満足状態変化パターンモデル構造」の例は、図５に例示した状態系列である。本形態では、すべての「変化パターン」について同一の「満足状態変化パターンモデル構造」が用いられる。しかし、これは本発明を限定しない。「学習用発話」には、各時点に対応する「会話」および「発話」を識別するためのラベルが対応付けられ、「満足状態変化パターン正解値」には、それぞれに対応する「会話」を識別するラベルが対応付けられ、「満足状態正解値」には、それぞれに対応する「発話」を識別するラベルが対応付けられている。これにより、「学習用発話」と「満足状態変化パターン正解値」と「満足状態正解値」とが対応付けられている。

　≪満足状態変化パターンモデル学習部１１２の処理≫
　満足状態変化パターンモデル学習部１１２には、満足状態変化パターン正解値記憶部１１１ｃ、満足状態正解値記憶部１１１ｂ、および満足状態変化パターンモデル構造記憶部１１１ｄからそれぞれ読み出された「満足状態変化パターン正解値」「満足状態正解値」「満足状態変化パターンモデル構造」が入力される。満足状態変化パターンモデル学習部１１２は、これらを用い、予め定められた「満足状態」の「変化パターン」のそれぞれについて、「満足状態変化パターンモデル構造」とその満足状態の遷移重みの集合とを含む「満足状態変化パターンモデル」を得て出力する。Ｋ種類（ただし、Ｋは変化パターンの総数（Ｋ≧２）であり、図３の例ではＫ＝９である）の変化パターンＣ_１，…，Ｃ_Ｋが設定されている場合、満足状態変化パターンモデル学習部１１２は、各変化パターンＣ_ｋ（ただし、ｋ＝１，…，Ｋ）について、それぞれ満足状態変化パターンモデルＰＭ_ｋ（ただし、ｋ＝１，…，Ｋ）を得て出力する。満足状態変化パターンモデルＰＭ_ｋの生成には、「満足状態変化パターン正解値」が変化パターンＣ_ｋである「会話」において行われた各「発話」に対応する「満足状態正解値」が用いられる。言い換えると、満足状態変化パターンモデル学習部１１２は、「満足状態変化パターン正解値」が変化パターンＣ_ｋである「会話」に含まれる「発話」に対応する「満足状態正解値」を学習データとして用い、「満足状態変化パターンモデル構造」に含まれる満足状態間の遷移重み（例えば、遷移確率）を学習し、「満足状態変化パターンモデル構造」と得られた遷移重みの集合とを含む満足状態変化パターンモデルＰＭ_ｋを出力する。図５に例示する「満足状態変化パターンモデル構造」の場合、満足状態変化パターンモデル学習部１１２は、「満足状態変化パターン正解値」が変化パターンＣ_ｋである「会話」に含まれる「発話」に対応する「満足状態正解値」を学習データとして用い、Ｓ_０からステージIでのＳ_１，Ｓ_２，Ｓ_３への遷移重み、ステージIでのＳ_１，Ｓ_２，Ｓ_３の遷移重み、ステージIでのＳ_１，Ｓ_２，Ｓ_３からステージIIでのＳ_１，Ｓ_２，Ｓ_３への遷移重み、ステージIIでのＳ_１，Ｓ_２，Ｓ_３の遷移重み、ステージIIでのＳ_１，Ｓ_２，Ｓ_３からステージIIIでのＳ_１，Ｓ_２，Ｓ_３への遷移重み、ステージIIIでのＳ_１，Ｓ_２，Ｓ_３の遷移重み、およびステージIIIでのＳ_１，Ｓ_２，Ｓ_３からＳ₄への遷移重みを学習し、図５に例示する「満足状態変化パターンモデル構造」と、得られた遷移重みの集合と、を含む満足状態変化パターンモデルＰＭ_ｋを出力する。なお、「満足状態変化パターンモデル構造」が既知である場合には、「満足状態変化パターンモデル構造」を含まず、得られた遷移重みの集合を含む情報を「満足状態変化パターンモデル」としてもよい。図６に、前述した「（１）普通→満足：普通から満足に変化するパターン」である変化パターンに対応する遷移重みのうち、大きな遷移重みを持つ状態遷移を太い矢印で示し、小さな遷移重みを持つ状態遷移を細い矢印で示したものを例示する。遷移重みの学習は、状態系列が既知の場合のHMM学習と同じ手順で実施できる（例えば、参考文献２（鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄、“音声認識システム”、オーム社、pp. 27‐29, 2001．）参照）。満足状態変化パターンモデルＰＭ_ｋは、各変化パターンＣ_ｋ（ただし、ｋ＝１，…，Ｋ）について得られる。満足状態変化パターンモデル学習部１１２、すべての変化パターンＣ_１，…，Ｃ_Ｋについて同一の「満足状態変化パターンモデル構造」を用い、変化パターンＣ_ｋ（ただし、ｋ＝１，…，Ｋ）のそれぞれについて満足状態変化パターンモデルＰＭ_ｋ（ただし、ｋ＝１，…，Ｋ）を得て出力する。変化パターンＣ_ｋ（ただし、ｋ＝１，…，Ｋ）のそれぞれについて得られた満足状態変化パターンモデルＰＭ_ｋ（ただし、ｋ＝１，…，Ｋ）は、満足状態変化パターンモデル記憶部１１１ｆに格納される。

　≪音声区間検出部１１３の処理≫
　音声区間検出部１１３には、学習用発話記憶部１１１ａから読み出された「学習用発話」が入力される。音声区間検出部１１３は、入力された「学習用発話」に対して音声区間検出を適用して一つ以上の音声区間を検出し、検出された音声区間における「発話者」の「発話」を抽出して出力する。音声区間検出には、パワーのしきい値処理に基づく手法、音声／非音声モデルの尤度比に基づく手法などの周知の音声区間検出手法を用いることができる。

　≪発話特徴量抽出部１１４の処理≫
　発話特徴量抽出部１１４には、音声区間検出部１１３から出力された音声区間における「発話者」の「発話（学習用発話）」が入力される。発話特徴量抽出部１１４は、「発話者」の「発話」ごとに、「満足状態」と関連すると考えられる特徴量である「学習用発話特徴量」を抽出する。例えば、発話特徴量抽出部１１４は、「発話」の韻律特徴、対話特徴、および言語特徴の少なくとも一つ以上を含む特徴量を「学習用発話特徴量」として抽出する。韻律特徴としては、例えば、発話の基本周波数、パワーの平均・標準偏差・最大値・最小値、発話中の話速、発話中の最終音素の継続長のうち少なくとも一つ以上を用いることができる。発話の基本周波数またはパワーを特徴量の少なくとも一部として用いる場合、発話特徴量抽出部１１４は、発話をフレーム分割し、フレームごとに基本周波数またはパワーを求め、各フレームの基本周波数またはパワーを特徴量の少なくとも一部とすればよい。話速または最終音素の継続長を特徴量の少なくとも一部として用いる場合、発話特徴量抽出部１１４は、周知の音声認識技術を用いて発話中の音素系列を推定し、話速または最終音素の継続長を得ればよい。対話特徴としては、顧客などの「発話者」による前の「発話」から現在の「発話」までの時間、顧客などの「発話者」と会話を行ったオペレータなどの対話者が行った対話者発話から顧客などの「発話者」による「発話」までの間、顧客などの「発話者」からオペレータなどの対話者が行った次の対話者発話までの間、顧客などの「発話者」による「発話」の長さ、「発話者」によって行われた「発話」の前後に行われたオペレータなどの対話者による対話者発話の長さ、前後に行われたオペレータなどの対話者による対話者発話中の顧客などの「発話者」の相槌数、顧客などの「発話者」の発話中に行われたオペレータなどの対話者の相槌数の少なくとも一つ以上を用いることができる。言語特徴としては、発話中の単語数、発話中のフィラー数、発話中の感謝の言葉の出現数のうち少なくとも一つ以上を用いることができる。言語特徴を特徴量の少なくとも一部として用いる場合、発話特徴量抽出部１１４は、周知の音声認識技術を用いて発話中の出現単語を推定し、その結果を用いればよい。人手によって選ばれた感謝の言葉（例えば「ありがとう」または「どうも」）の出現数を特徴量の少なくとも一部としてもよい。いずれの特徴を「学習用発話特徴量」として用いるかは事前に定められている。発話特徴量抽出部１１４は、抽出した「学習用発話特徴量」を出力する。

　＜満足状態推定モデル学習部１１５の処理＞
　満足状態推定モデル学習部１１５には、発話特徴量抽出部１１４から出力された「学習用発話特徴量」、および満足状態正解値記憶部１１１ｂから読み出された「満足状態」の正解値が入力される。ただし、満足状態推定モデル学習部１１５に入力される「満足状態」の正解値は、満足状態推定モデル学習部１１５に入力される「学習用発話特徴量」に対応する「発話」を行った「発話者」の「満足状態」の正解値である。すなわち、「学習用発話特徴量」および「学習用発話特徴量」に対応する各「発話」が行われた際の「発話者」の「満足状態」の正解値が、満足状態推定モデル学習部１１５に入力される。満足状態推定モデル学習部１１５は、入力された「学習用発話特徴量」とそれに対応する「発話（学習用発話）」ごとの「発話者」の「満足状態」の正解値とのペアを用い、学習処理を行い、「発話者の満足状態（当該発話者が各発話を行った際の満足状態）」が与えられた場合における「発話特徴量（当該発話者の各発話の発話特徴量）」の事後確率（発話特徴量の推定値の事後確率）を得るための「満足状態推定モデル」を生成して出力する。例えば、「満足状態推定モデル」にはニューラルネットワークなどを用いることができ、そのモデル学習には既存のニューラルネットワークの学習手法である誤差逆伝搬法などを用いることができる。ただし、「発話者」の「満足状態」が与えられた場合における「発話特徴量」の事後確率が得られるのであれば、ニューラルネットワーク以外のモデルを用いてもよく、例えば混合正規分布モデルを用いてもよい。なお、「発話者」が「会話」においてｎ番目の「発話」を行った際の「発話者」の「満足状態」をＳ（ｎ）とし、当該ｎ番目の「発話」の「発話特徴量」をＸ（ｎ）とすると、発話者の満足状態Ｓ（ｎ）が与えられた場合における発話特徴量Ｘ（ｎ）の事後確率はＰ（Ｘ（ｎ）｜Ｓ（ｎ））と表現できる。ただし、事後確率Ｐ（Ｘ（ｎ）｜Ｓ（ｎ））において、満足状態Ｓ（ｎ）はｎに依存しないものとする。満足状態推定モデル学習部１１５は生成した「満足状態推定モデル」を出力し、「満足状態推定モデル」は満足状態推定モデル記憶部１１１ｅに格納される。

　＜推定処理＞
　次に、推定装置１２（図２）が行う推定処理について説明する。
　≪入力部１２１への入力≫
　推定装置１２の入力部１２１に満足状態の推定対象となる発話である「入力発話」が入力される。「入力発話」は「会話」において「発話者」によって行われた発話の時系列データである。「入力発話」は音声区間検出部１２２に出力される。

　≪音声区間検出部１２２の処理≫
　音声区間検出部１２２には、入力部１２１から出力された「入力発話」が入力される。音声区間検出部１２２は、入力された「入力発話」に対して音声区間検出を適用して一つ以上の音声区間を検出し、検出された音声区間における「発話者」の「入力発話」を抽出して出力する。音声区間検出には、パワーのしきい値処理に基づく手法、音声／非音声モデルの尤度比に基づく手法などの周知の音声区間検出手法を用いることができる。

　≪発話特徴量抽出部１２３の処理≫
　発話特徴量抽出部１２３には、音声区間検出部１２２から出力された音声区間における「発話者」の「入力発話」が入力される。発話特徴量抽出部１２３は、「発話者」の「入力発話」ごとに、「満足状態」と関連すると考えられる特徴量である「入力発話特徴量」を抽出する。発話特徴量抽出部１２３が抽出する特徴量の種別は、前述の発話特徴量抽出部１１４が抽出する特徴量の種別と同じである。発話特徴量抽出部１２３は、抽出した「入力発話特徴量」を出力する。

　≪状態推定部１２４の処理≫
　状態推定部１２４には、発話特徴量抽出部１２３から出力された「入力発話特徴量」、モデル学習装置１１（図１）の満足状態推定モデル記憶部１１１ｅから読み出された「満足状態推定モデル」、および満足状態変化パターンモデル記憶部１１１ｆから読み出された「満足状態変化パターンモデル」が入力される。状態推定部１２４は、「入力発話特徴量」、「満足状態推定モデル」、および「満足状態変化パターンモデル」を用い、「入力発話特徴量」に対応する「発話」を行った「発話者」の満足状態の推定値を得て出力する。本形態の状態推定部１２４は、以下に基づいて「発話」を行った際の「発話者」の満足状態の推定値を得る。

ただし、Ｓ＾（ｎ）は「会話」におけるｎ番目（時間順でｎ番目。ｎは２以上の整数）の「発話」が行われた際の「発話者」の「満足状態」の推定値を表し、Ｓ（ｎ）は「会話」におけるｎ番目の「発話」が行われた際の「発話者」の「満足状態」を表し、Ｘ（ｎ）は「会話」におけるｎ番目の「発話」の「入力発話特徴量」を表し、Ｃ_ｋ（ただし、ｋ＝１，…，Ｋ）は前述したＫ個（例えば９個）の変化パターンのうちｋ番目の変化パターンを表す。「Ｓ＾（ｎ）」の「＾」は本来「Ｓ」の真上に記載すべきであるが、記載表記の制約上の都合から「Ｓ」の右上に記載した。またＳ＾（ｎ）の初期値Ｓ＾（１）は定数であってもよいし、会話の１番目から前回までの任意の推定されたＳ＾（ｎ）を今回の初期値Ｓ＾（１）としてもよい。またＰ（α）は事象αの確率を表し、

はＰ（α）を最大にするＳ（ｎ）を意味する。また式（１）は以下のように導出されるものである。

　より具体的に説明すると、状態推定部１２４は、入力発話特徴量Ｘ（ｎ）を「満足状態推定モデル」に適用してＰ（Ｘ（ｎ）｜Ｓ（ｎ））を得、さらに各変化パターンＣ_ｋ（ただし、ｋ＝１，…，Ｋ）について「満足状態変化パターンモデル」およびＳ＾（ｎ－１），…，Ｓ＾（１）を用いてＰ（Ｓ（ｎ）｜Ｓ＾（ｎ－１），…，Ｓ＾（１），Ｃ_ｋ）を得る。状態推定部１２４は、各変化パターンＣ_ｋ（ただし、ｋ＝１，…，Ｋ、例えば、Ｋ＝１，…，９）について積Ｐ（Ｘ（ｎ）｜Ｓ（ｎ））Ｐ（Ｓ（ｎ）｜Ｓ＾（ｎ－１），…，Ｓ＾（１），Ｃ_ｋ）を最大にするＳ（ｎ）をＳ＾（ｎ）として得る。さらに状態推定部１２４は、各変化パターンＣ_ｋ（ただし、ｋ＝１，…，Ｋ、例えば、Ｋ＝１，…，９）について得られたＳ＾（ｎ）＝Ｓ（ｎ）のうち、対応するＰ（Ｘ（ｎ）｜Ｓ（ｎ））Ｐ（Ｓ（ｎ）｜Ｓ＾（ｎ－１），…，Ｓ＾（１），Ｃ_ｋ）が最大となる変化パターンＣ_ｋを選択し、選択した変化パターンＣ_ｋに対応するＳ＾（ｎ）を「会話」におけるｎ番目の「発話」が行われた際の「発話者」の満足状態の推定値として出力する。ただし、これらを総当たりで計算すると計算量が膨大となるため、音声認識でHMMが用いられる場合などと同様にビタビアルゴリズムを用いて最尤系列のみを計算に利用することにしてもよい。得られたＳ＾（ｎ）は次のｎ＋１番目のＳ＾（ｎ＋１）の算出のために再帰的に利用される。

　＜本形態の特徴＞
　「会話」における「発話者」の満足状態には時系列的な関連性があると考えられる。例えば、「会話」のある時刻において満足状態が「満足」である「発話者」は、次の時刻において満足状態が「不満」になる可能性は極めて低い。また、満足状態が「不満」から「普通」のち「満足」に遷移した「発話者」は、「不満」から「満足」に変わるほどに強い満足感を感じているため、「満足」がある程度継続することが予想される。このように、「発話者」の満足状態はある「発話」を行った時刻までの満足状態と強い関連性がある。本形態では、「満足状態変化パターンモデル」および「満足状態推定モデル」を学習し、それらと「入力発話特徴量」を用いて、「入力発話特徴量」に対応する発話を行った発話者の満足状態の推定値を得る。これにより、「発話者」の満足状態の変化を考慮して満足状態を推定することができる。

　［その他の変形例等］
　なお、本発明は上述の実施形態に限定されるものではない。例えば、モデル学習装置１１と推定装置１２が同一の装置であってもよいし、モデル学習装置１１が複数の装置によって構成されてもよいし、推定装置１２が複数の装置によって構成されてもよい。

　上述の実施形態では、状態推定部１２４が、各変化パターンＣ_ｋ（ただし、ｋ＝１，…，Ｋ、例えば、Ｋ＝１，…，９）について得られたＳ＾（ｎ）＝Ｓ（ｎ）のうち、対応するＰ（Ｘ（ｎ）｜Ｓ（ｎ））Ｐ（Ｓ（ｎ）｜Ｓ＾（ｎ－１），…，Ｓ＾（１），Ｃ_ｋ）が最大となる変化パターンＣ_ｋを選択し、選択した変化パターンＣ_ｋに対応するＳ＾（ｎ）を「会話」におけるｎ番目の「発話」が行われた際の「発話者」の満足状態の推定値として出力した。しかし、各変化パターンＣ_ｋ（ただし、ｋ＝１，…，Ｋ、例えば、Ｋ＝１，…，９）について得られたＳ＾（ｎ）＝Ｓ（ｎ）のうち、対応するＰ（Ｘ（ｎ）｜Ｓ（ｎ））Ｐ（Ｓ（ｎ）｜Ｓ＾（ｎ－１），…，Ｓ＾（１），Ｃ_ｋ）が大きい順番に複数個の変化パターンＣ_ｋが選択され、選択された複数個の変化パターンＣ_ｋに対応するＳ＾（ｎ）が「会話」におけるｎ番目の「発話」が行われた際の「発話者」の満足状態の推定値とされてもよい。また、状態推定部１２４が、各変化パターンＣ_ｋ（ただし、ｋ＝１，…，Ｋ、例えば、Ｋ＝１，…，９）について得られたＳ＾（ｎ）＝Ｓ（ｎ）を、対応するＰ（Ｘ（ｎ）｜Ｓ（ｎ））Ｐ（Ｓ（ｎ）｜Ｓ＾（ｎ－１），…，Ｓ＾（１），Ｃ_ｋ）の大きさとともに、発話者」の満足状態の推定値として出力してもよい。

　上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

　上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

　このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

　上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。

１１　モデル学習装置
１２　推定装置

Claims

　会話における発話者の満足状態の変化パターンの正解値を表す満足状態変化パターン正解値、および、前記会話で各発話が行われた際の前記発話者の満足状態の正解値をそれぞれ表す満足状態正解値を用い、予め定められた満足状態の変化パターンのそれぞれについて、満足状態の状態系列における遷移重みの集合を含む満足状態変化パターンモデルを得て出力する満足状態変化パターンモデル学習部と、
　学習用発話特徴量および前記学習用発話特徴量に対応する学習用発話を行った発話者の満足状態の正解値を用い、発話者の満足状態が与えられた場合における発話特徴量の事後確率を得るための満足状態推定モデルを得て出力する満足状態推定モデル学習部と、
を有するモデル学習装置。
　請求項１のモデル学習装置であって、
　前記満足状態は、満足、普通、および不満のうちの何れかの状態であり、
　前記変化パターンは、前記満足状態が
　（１）普通から満足に変化するパターン、
　（２）普通から不満に変化し、さらに満足に変化するパターン、
　（３）不満から満足に変化するパターン、
　（４）普通が継続するパターン、
　（５）普通から不満に変化し、さらに普通に変化するパターン、
　（６）不満が継続するパターン、
　（７）普通から不満に変化するパターン、
　（８）不満から普通に変化するパターン、および
　（９）満足が継続するパターン、
のうちの何れかである、モデル学習装置。
　請求項１または２のモデル学習装置であって、
　満足状態変化パターンモデル構造が前記満足状態の状態系列であり、
　前記満足状態変化パターンモデル学習部は、すべての前記変化パターンについて同一の前記満足状態変化パターンモデル構造を用い、前記変化パターンのそれぞれについて前記満足状態変化パターンモデルを得て出力する、モデル学習装置。
　入力発話特徴量、ならびに、請求項１から３のいずれかのモデル学習装置で得られる前記満足状態変化パターンモデルおよび前記満足状態推定モデルを用い、前記入力発話特徴量に対応する発話を行った発話者の満足状態の推定値を得て出力する、推定装置。
　モデル学習装置によって実行されるモデル学習方法であって、
　会話における発話者の満足状態の変化パターンの正解値を表す満足状態変化パターン正解値、および、前記会話で各発話が行われた際の前記発話者の満足状態の正解値をそれぞれ表す満足状態正解値を用い、予め定められた満足状態の変化パターンのそれぞれについて、満足状態の状態系列における遷移重みの集合を含む満足状態変化パターンモデルを得て出力する満足状態変化パターンモデル学習ステップと、
　学習用発話特徴量および前記学習用発話特徴量に対応する学習用発話を行った発話者の満足状態の正解値を用い、発話者の満足状態が与えられた場合における発話特徴量の事後確率を得るための満足状態推定モデルを得て出力する満足状態推定モデル学習ステップと、
を有するモデル学習方法。
　請求項５のモデル学習方法であって、
　満足状態変化パターンモデル構造が前記満足状態の状態系列であり、
　前記満足状態変化パターンモデル学習ステップは、すべての前記変化パターンについて同一の前記満足状態変化パターンモデル構造を用い、前記変化パターンのそれぞれについて前記満足状態変化パターンモデルを得て出力する、モデル学習方法。
　推定装置によって実行される推定方法であって、
　入力発話特徴量、ならびに、請求項５または６のモデル学習方法で得られる前記満足状態変化パターンモデルおよび前記満足状態推定モデルを用い、前記入力発話特徴量に対応する発話を行った発話者の満足状態の推定値を得て出力する、推定方法。
　請求項１から３のいずれかのモデル学習装置、または、請求項４の推定装置としてコンピュータを機能させるためのプログラム。