JP4970371B2

JP4970371B2 - 情報処理装置

Info

Publication number: JP4970371B2
Application number: JP2008184897A
Authority: JP
Inventors: 千加志杉浦
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-07-16
Filing date: 2008-07-16
Publication date: 2012-07-04
Anticipated expiration: 2028-07-16
Also published as: JP2010026068A

Description

本発明は情報処理装置に関する。

近年、人と機械との円滑な音声インターフェースなどの目的のために、ユーザの発した音声からユーザの感情を判別する感情抽出技術の必要性が高まっている。この感情抽出技術では、ユーザの発話内容からユーザの感情を推測する技術だけでなく、発話した音声の特徴量を用いてユーザの感情を判別する技術がある。このように音声の特徴量を用いて感情抽出を行うには、ユーザの話し方や声道特性のような個人差の影響を受けない値を特徴量として用いる必要がある。また、感情抽出を行うために事前に音声を学習する必要が無ければ、どのような音声に対しても精度良く感情抽出を行うことができる。

そのため、話し方や個人差の影響を受けず、また学習を必要とせずに感情抽出に必要な特徴量の抽出を行う技術が提案されている（例えば、非特許文献１参照。）。
Alku, P., Backstrom, T., & Vilkman, E. (2002). Normalized amplitude quotient for parameterization of the glottal flow. Journal of the Acoustic Society of America: 112(2), 701-710.

非特許文献１に記載の手法では、有声音を声道逆フィルタに通して得られる声帯音源波の最大値と最小値の差を、声帯音源微分波の負ピークの大きさとピッチ周期で除した値をＮＡＱ（Normalized Amplitude Quotient）として定義し、この値が大きい場合にはＢｒｅａｔｈｙな声（以降では、弱い声と称する）であり、小さい場合にはＰｒｅｓｓｅｄな声（以降では、強い声と称する）であるとしている。このＮＡＱを用いて、入力された音声が弱い声であれば悲しみの傾向が強いと判断でき、強い声であれば喜びの傾向が強いと判断できる。

しかしながら、ＮＡＱを用いて声帯の開閉に関する特徴量を抽出するためには、高精度に声帯音源波を抽出する必要があり、そのためにはＤＡＰ（Discrete All Poll Modeling）などの、高精度な声道特性の推定が必要となる。高精度な声道特性の推定は、非常の多くの処理量が必要であり、携帯機器などの組み込み機器でリアルタイムに動作させるには課題がある。一方、処理量が軽く、一般的な声道特性の推定法として線形予測分析があるが、この方法では高精度に音源波形を抽出することはできない。したがって、従来は、低演算量で高精度に声帯の開閉に関する特徴量を抽出することはできなかった。

そこで本発明は、低演算量で高精度に声帯の開閉に関する特徴量を抽出する情報処理装置を提供することを目的とする。

上記目的を達成するために、本発明による情報処理装置は、音声を入力する入力手段と、前記入力手段によって入力された音声をフレームに区分する区分手段と、前記区分手段から出力されたフレーム音声に対して線形予測分析を行って、線形予測の残差波形を算出し、この残差波形に基づいて声帯音源波に放射特性を加えた声帯音源微分波を推定する声帯音源微分波演算手段と、前記区分手段によって区分されるフレーム音声から基本周期を算出する基本周期演算手段と、前記声帯音源微分波演算手段によって推定された声帯音源微分波に対して、前記基本周期ごとに急峻な立ち上がりの最小位置と最大位置とを特定して、急峻な立ち上がりの最大位置と次の急峻な立ち上がりの最小位置とを結ぶ線分を取得し、取得した前記線分を一辺とする領域と前記声帯音源微分波の領域との差分から声の強弱を表す特徴量を算出する特徴量算出手段とを有することを特徴とする。

本発明によれば、低演算量で高精度に声帯の開閉に関する特徴量を抽出することができる。

以下、本発明の実施形態について図面を参照して説明する。

図１は、本実施形態に係る情報処理装置の構成を示すブロック図である。情報処理装置１は、制御部５１、記憶部５２、操作部５３、音声入出力部５４、表示部５５を備えている。制御部５１はＣＰＵ、ＲＯＭ、ＲＡＭなどによって構成され、記憶部５２に記憶されたプログラムを実行し、情報処理装置１全体を制御する。その１つとして制御部５１は、声帯特徴量取得部１００を有する。操作部５３は、ユーザからの操作を制御部５１へ伝える。音声入出力部５４は、スピーカやマイクを含み、マイクによって入力された音を制御部５１へ伝える。また、制御部５１の制御に従って、スピーカから音を出力する。表示部５５は、液晶ディスプレイなどによって構成され、制御部５１の制御に従って文字や画像を表示する。

声帯特徴量取得部１００は、例えば音声入出力部５４のマイクを用いて入力された音声や、記憶部５２に記憶されている音声などが入力され、声の張りを表す値（以降、声帯特徴量と称する）を出力する。この声の張りとは、声帯の振動によって決まると考えられる。声帯が振動することによって起こる声帯音源波は、声道を通って、口から放射されることで音声として発せられる。この放射による周波数特性（放射特性）は微分によって近似されることが一般的に知られている。つまり、音声波形Ｓは、声帯音源波と放射特性を表すために声帯音源波を微分して得られる波形（以降、声帯音源微分波と称する）Ｇと、声道特性Ｖとを用いて、Ｓ＝Ｇ・Ｖと表すことができる。そこで、声帯特徴量取得部１００では、入力される音声波形Ｓから声帯音源微分波Ｇを推定し、推定した声帯音源微分波Ｇを用いて、声帯特徴量を算出して出力する。

図２は、声帯特徴量取得部１００の機能を示すブロック図である。声帯特徴量取得部１００は、発話区間区分手段１０１、線形予測係数演算手段１０２、残差波形演算手段１０３、声帯音源微分波演算手段１０４、基本周期演算手段１０５、声帯特徴量演算手段１０６を有する。

声帯特徴量取得部１００には、例えば音声入出力部５４のマイクを用いて入力された音声や、記憶部５２に記憶されている音声などが入力される。入力音声は、発話区間区分手段１０１に入力される。

発話区間区分手段１０１では、入力された音声を所定の時間長（例えば３０ｍｓｅｃ）のフレームに区分する。発話区間区分手段によって区分されたフレーム音声は、線形予測係数演算手段１０２に入力するとともに、基本周期演算手段１０５に入力する。

線形予測係数演算手段１０２では、入力されたフレーム音声に対して窓掛けを行ったうえで線形予測分析を行い、線形予測係数を算出する。算出した線形予測係数は、残差波形演算手段１０３に出力する。

残差波形演算手段１０３では、線形予測係数を用いて声道逆フィルタを形成し、その声道逆フィルタに線形予測係数演算手段１０２で窓掛けを行ったフレーム音声を入力して、残差波形を取得し、声帯音源微分波演算手段１０４へ出力する。線形予測分析によって算出された線形予測係数は主に声道特性に関する情報を有しているため、残差波形はおおよそ音声の声道特性を除去した波形とみなすことができる。この残差波形を用いて後述の声帯特徴量の算出処理を行うため、声道特性（個人差）が声帯特徴量に及ぼす影響を低減することができる。

声帯音源微分波演算手段１０４では、残差波形を積分して声帯音源微分波を推定する。残差波形と抽出されるべき声帯音源微分波とを比較すると、残差波形はフラットな周波数特性を有するのに対して、声帯音源微分波は、一般的に−６ｄＢ／ｏｃｔの傾斜（周波数が２倍になる（１オクターブ上がる）ごとに６ｄＢ下がる）を持つことが知られている。線形予測分析は、残差波形の周波数特性がフラットになるように線形予測係数を算出する処理なので、残差波形からは、声道特性のみならず、声帯音源微分波が本来有する周波数特性も失われていることになる。そこで、声帯音源微分波を得るため、残差波形に対して−６ｄＢ／ｏｃｔ（１オクターブ上がるごとに６ｄＢ下げるような）処理を行う。この−６ｄＢ／ｏｃｔの処理には、例えば積分処理を用いる。離散信号に対する積分処理は、入力信号をｘ（ｎ）、積分処理後の出力信号をｙ（ｎ）、係数αを０≦α≦１とすると、式（１）によって実現することができる。

ｙ（ｎ）＝ｘ（ｎ）＋α・ｙ（ｎ−１）（１）
このような積分処理を行うと、αが１．０に近い場合、−６ｄＢ／ｏｃｔの特性が付加される。残差波形はフラットな周波数特性を有するため、積分処理を行うことで、−６ｄＢ／ｏｃｔの特性を付加することができる。なお、残差波形から声帯音源微分波を得る処理は積分処理に限定することはなく、例えば−６ｄＢ／ｏｃｔの特性を有するＦＩＲフィルタによって処理しても良い。

以上の発話区間区分手段１０１、線形予測係数演算手段１０２、残差波形演算手段１０３、声帯音源微分波演算手段１０４の処理によって声帯音源微分波を推定することができる。

次に、図３を参照して、本発明が強い声と弱い声の程度の数値化（判別）に有効である理由を説明する。強い声と弱い声の「本来抽出されるべき声帯音源微分波」と「抽出される声帯音源微分波」を比較する。図３は、強い声と弱い声それぞれの本来抽出されるべき声帯音源微分波と抽出される声帯音源微分波の一例であって、「本来抽出されるべき声帯音源微分波」はＬＦモデルと呼ばれるパラメトリックな声帯音源波系モデルで生成しており、「抽出される声帯音源微分波」は、このＬＦモデルで生成した声帯音源微分波（本来抽出されるべき声帯音源微分波）を駆動源とし、全極モデルを声道フィルタとする、ソースフィルタモデルで合成した合成音声を線形予測分析して抽出している。

図３の例では、強い声の場合は、本来抽出されるべき声帯音源微分波の波形と抽出される声帯音源微分波の波形とが大差ないことが分かる。それに対して、弱い声は、本来抽出されるべき声帯音源微分波の波形と抽出される声帯音源微分波の波形との間に大きな差があることがわかる。このように、抽出される声帯音源微分波は、強い声か弱い声かに応じた特徴が表れる。

そこで、特徴量演算手段１０６では、声帯音源微分波演算手段１０４から入力される声帯音源微分波が、声の強さに応じて異なる特徴を有することを利用して、声の強さを表す特徴量を算出する。この特徴量の算出は、基本周期演算手段１０５によって算出される基本周期を用いて処理を行う。

基本周期演算手段１０５で基本周期を算出する場合には、発話区間区分手段１０１から出力されるフレームに切り分けられた入力音声から抽出しても良いし、残差波形演算手段１０３から出力される線形予測残差信号から抽出しても良いし、線形予測残差信号を低域濾波した信号を用いても良い。（図２のブロック図では、発話区間区分手段１０１から出力されるフレーム音声が基本周期演算手段１０５に入力される場合を示している。）また、基本周期抽出の手法も例えば自己相関を用いて自己相関係数のピーク位置を基本周期として抽出する手法などが考えられるが、特に限定されるものではない。なお、基本周期演算手段１０５によって基本周期が算出できない場合には、無声音であると判断して、特徴量演算手段１０６に対して当該フレーム音声が無声音であることを示す情報を出力する。この情報を特徴量演算手段１０６が受けると、当該フレームに対する特徴量算出の処理は行わない。基本周期演算手段１０５によって基本周期が算出できない場合とは、例えば自己相関係数のピーク位置を用いて基本周期を取得する際、自己相関係数のピーク位置が人の声の基本周期の範囲から逸脱した箇所に現れたり、ノイズのようなピークが得られたりする場合である。

特徴量演算手段１０６には、声帯音源微分波演算手段１０４から出力されるフレームごとの声帯音源微分波と、基本周期演算手段１０５から出力されるフレームごとの基本周期とが入力される。特徴量演算手段１０６は、声帯音源微分波が基本周期ごとに有する急峻な立ち上がり位置を特定し、隣り合う立ち上がり位置で挟まれた区間の波形によって強い声か弱い声かを表す特徴量を算出する。

声帯音源微分波を用いて強い声か弱い声かを表す特徴量の算出の概要について図４を用いて説明する。図４は、強い声と弱い声の特徴的な声帯音源微分波の例を表している。強い声の場合、ある立ち上がりの最大位置２Ｔから次の立ち上がりの最小位置３Ｂまでを結んだ線分よりも声帯音源微分波の各サンプルの方が高い値となる。それに対して、弱い声の場合、ある立ち上がりの最大位置２Ｔから次の立ち上がりの最小位置３Ｂまでを結んだ線分よりも声帯音源微分波のサンプルの方が低い値となる場合が多い。そこで、ある立ち上がり位置の最大位置から次の立ち上がり位置の最小位置の区間において、声帯音源微分波から立ち上がり位置によって特定される線分を差し引いた差分の合計値を考える。この差分の合計値は、図４のハッチングで示した範囲の面積を求めることに相当する。ただし、立ち上がり位置によって特定される線分よりも上に位置するハッチングで示した範囲の面積はプラスの値であるのに対して、線分よりも下に位置するハッチングで示した範囲の面積はマイナスの値である。

また、総和のみならず、重み付き総和を算出しても良い。予め、結果が良くなるような重みを用意しておき、この重み係数を用いて重み付き総和を算出することで、声の強さの数値化精度を向上させることができる。

具体的には、主観などにより声の張り度合いを点数付けした音声を用意しておき、この音声から声の張りに関する特徴量を算出し、この点数と特徴量との相関がなるべく大きくなるように重み係数を算出することで、高精度な声の張りに関する特徴量の抽出が可能となる。重み係数の算出方法は、例えばヒューリスティックに行っても良いし、ＧＡ（遺伝的アルゴリズム）やＮＮ（ニューラルネットワーク）などの逐次更新を繰り返す手法を用いても良い。また図５の様に、あるフレームｎにおいて、線分が位置する区間を区間数Ｍに分割し、この小区間ごとの線分と声帯音源微分波で囲まれる小面積をＳｎｍとし、重み係数をＷｍとすると、そのフレームにおける特徴量Ｘｎは式（２）で表されるので、このＸｎと主観評価点数Ｙｎとの相関を最大化するために、正準相関分析を用いても良い。こうすることで、声の張りに関する特徴量と主観などで点数付けした声の張り度合いとの相関を最大化するための重み係数を解析的に算出することができ、結果的に声の張りに関する特徴量の抽出精度を向上することができる。

図４の場合、強い声の声帯音源微分波では、ハッチングで示した範囲は線分よりも上に位置しているため、差分の合計値がプラスの値となる。それに対して弱い声の声帯音源波では、ハッチングで示した範囲は線分よりも下に位置しているのがほとんどであるため、差分の合計値がマイナスの値となる。

このように、声帯音源微分波と立ち上がり位置によって特定される線分との差分は、強い声と弱い声によって大きく異なるため、この差分に基づいて強い声か弱い声かを定量的に表す特徴量を算出することができる。

図６は特徴量演算手段１０６の具体的な処理を示すフローチャートである。まず特徴量演算手段１０６は、入力されたフレームごとの声帯音源微分波を微分する（Ｓ２０１）。なお、声帯音源微分波演算手段１０４において、残差波形を積分することによって声帯音源微分波を算出する場合、残差波形が声帯音源微分波を微分した波形に相当するため、残差波形演算手段１０３の出力である残差波形を特徴量演算部１０６に入力して、声帯音源微分波を微分した波形として用いても良い。

次に、基本周期ごとに声帯音源微分波を微分して得られた値が最大のサンプルを探索する（Ｓ２０２）。このサンプルが声帯音源微分波の増加量が最大になる位置である。そして、最大のサンプルから前後に声帯音源微分波を微分して得られた値が最大値の所定の割合以上の値を有するサンプルがどこまで連続しているかを探索する。この所定の割合は、経験的に求められる値であって、ここでは例えば７０％であるとして説明する。ある基本周期内で声帯音源微分波を微分して得られた値が最大のサンプルを基準として、前方向に１サンプルずつ探索し、声帯音源微分波を微分して得られた値が当該最大値の７０％を維持している連続したサンプルのうち、一番前のサンプルを見つけ、この一番前のサンプルを急峻な立ち上がりの最小位置とする（Ｓ２０３）。また、後ろ方向も同様に１サンプルずつ探索することによって、最大値の７０％を維持している連続した一番後ろのサンプルを見つけ、この一番後ろのサンプルを急峻な立ち上がりの最大位置とする（Ｓ２０４）。

そして、急峻な立ち上がりの最小位置と１つ前の急峻な立ち上がりの最大位置とを結ぶ線分を特定し（Ｓ２０５）、この１つ前の立ち上がりの最大位置と次の立ち上がりの最小位置の区間で、声帯音源微分波と線分との差分の合計値を算出する（Ｓ２０６）。そして、この合計値を基本周期で除算した結果を特徴量として出力する（Ｓ２０７）。基本周期は、個人差や、言語や方言によって異なる、抑揚によって変化するため、合計値を基本周期で除することによって、特徴量から基本周期の影響を低減することができる。

なお、基本周期ごとの声帯音源微分波と線分との差分の合計値を基本周期で除した値を特徴量として出力するとしたが、基本周期ごとの声帯音源微分波と線分との差分の合計値を基本周期で除した値をフレームなど所定の単位ごとに合計した値を特徴量として出力しても良い。

また、特徴量を算出するときに、基本周期で除するのではなく、フレーム単位の実効値や基本周期単位の実効値で除しても良いし、最大振幅で除しても良い。このような値で除することによって、声の大きさ、マイクの距離、マイクゲインなどパワーの違いの特徴量への影響を低減することができる。

以上のような実施形態の構成をとることで、基本周期やパワーに依存しない特徴を抽出するため、話し方や声の大きさの影響を低減して、感情抽出に必要な声の張り（声の強さ）を表す特徴量を高精度に抽出することができる。また、声の張りを表す特徴量を抽出するときには、学習を必要としないため、低演算量かつ特別なチューニングを必要とせずに特徴量の抽出をおこなうことができる。

なお、上記実施形態に限定されることはなく、本発明の要旨を逸脱しない範囲において、適宜変更しても良い。

本発明の実施形態に係る情報処理装置の構成を示すブロック図。本発明の実施形態に係る声帯特徴量取得部の機能を示すブロック図。強い声から抽出される声帯音源微分波と弱い声から抽出される声帯音源微分波の違いを示す図。本発明の実施形態に係る情報処理装置の特徴量演算手段での処理を説明するための図。本発明の実施形態に係る情報処理装置の特徴量演算手段での処理を説明するための図。本発明の実施形態に係る情報処理装置の特徴量演算手段の処理フローチャート。

符号の説明

１情報処理装置、５１制御部、５２記憶部、５３操作部、５４音声入出力部、５５表示部、１００声帯特徴量取得部、１０１発話区間区分手段、１０２線形予測係数演算手段、１０３残差波形演算手段、１０４声帯音源微分波演算手段、１０５基本周期演算手段、１０６声帯特徴量演算手段

Claims

音声を入力する入力手段と、
前記入力手段によって入力された音声をフレームに区分する区分手段と、
前記区分手段から出力されたフレーム音声に対して線形予測分析を行って、線形予測の残差波形を算出し、この残差波形に基づいて声帯音源波に放射特性を加えた声帯音源微分波を推定する声帯音源微分波演算手段と、
前記区分手段によって区分されるフレーム音声から基本周期を算出する基本周期演算手段と、
前記声帯音源微分波演算手段によって推定された声帯音源微分波に対して、前記基本周期ごとに急峻な立ち上がりの最小位置と最大位置とを特定して、急峻な立ち上がりの最大位置と次の急峻な立ち上がりの最小位置とを結ぶ線分を取得し、取得した前記線分を一辺とする領域と前記声帯音源微分波の領域との差分から声の強弱を表す特徴量を算出する特徴量算出手段と
を有することを特徴とする情報処理装置。
前記特徴量算出手段は、前記差分の合計値を特徴量として算出することを特徴とする請求項１に記載の情報処理装置。
前記特徴量算出手段は、前記差分の荷重和を特徴量として算出することを特徴とする請求項１に記載の情報処理装置。
前記基本周期演算手段によってフレーム音声の基本周期が算出されなかった場合、当該フレームに対して前記特徴量算出手段による特徴量の算出を行わないことを特徴とする請求項１に記載の情報処理装置。
前記特徴量算出手段は、
前記声帯音源微分波の前記基本周期ごとの急峻な波形の立ち上がりの最小位置と最大位置を、前記基本周期ごとに声帯音源微分波を微分して得られる値が最大値のサンプルから前後に前記微分して得られる値が前記最大値の所定の割合以上のサンプルが連続する区間から探索することを特徴とする請求項１に記載の情報処理装置。
入力された音声をフレームに区分する区分機能と、
前記区分機能によって得られるフレーム音声に対して線形予測分析を行って、線形予測の残差波形を算出し、この残差波形に基づいて声帯音源波に放射特性を加えた声帯音源微分波を推定する声帯音源微分波演算機能と、
前記区分機能によって区分されるフレーム音声から基本周期を算出する基本周期演算機能と、
前記声帯音源微分波演算機能によって推定された声帯音源微分波に対して、前記基本周期ごとに急峻な立ち上がりの最小位置と最大位置とを特定して、急峻な立ち上がりの最大位置と次の急峻な立ち上がりの最小位置とを結ぶ線分を取得し、取得した前記線分を一辺とする領域と前記声帯音源微分波の領域との差分から声の強弱を表す特徴量を算出する特徴量算出機能と
を有することを特徴とする音声特徴量算出プログラム。