[go: up one dir, main page]

JP4970371B2 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP4970371B2
JP4970371B2 JP2008184897A JP2008184897A JP4970371B2 JP 4970371 B2 JP4970371 B2 JP 4970371B2 JP 2008184897 A JP2008184897 A JP 2008184897A JP 2008184897 A JP2008184897 A JP 2008184897A JP 4970371 B2 JP4970371 B2 JP 4970371B2
Authority
JP
Japan
Prior art keywords
differential wave
vocal cord
source differential
voice
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008184897A
Other languages
English (en)
Other versions
JP2010026068A (ja
Inventor
千加志 杉浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008184897A priority Critical patent/JP4970371B2/ja
Publication of JP2010026068A publication Critical patent/JP2010026068A/ja
Application granted granted Critical
Publication of JP4970371B2 publication Critical patent/JP4970371B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は情報処理装置に関する。
近年、人と機械との円滑な音声インターフェースなどの目的のために、ユーザの発した音声からユーザの感情を判別する感情抽出技術の必要性が高まっている。この感情抽出技術では、ユーザの発話内容からユーザの感情を推測する技術だけでなく、発話した音声の特徴量を用いてユーザの感情を判別する技術がある。このように音声の特徴量を用いて感情抽出を行うには、ユーザの話し方や声道特性のような個人差の影響を受けない値を特徴量として用いる必要がある。また、感情抽出を行うために事前に音声を学習する必要が無ければ、どのような音声に対しても精度良く感情抽出を行うことができる。
そのため、話し方や個人差の影響を受けず、また学習を必要とせずに感情抽出に必要な特徴量の抽出を行う技術が提案されている(例えば、非特許文献1参照。)。
Alku, P., Backstrom, T., & Vilkman, E. (2002). Normalized amplitude quotient for parameterization of the glottal flow. Journal of the Acoustic Society of America: 112(2), 701-710.
非特許文献1に記載の手法では、有声音を声道逆フィルタに通して得られる声帯音源波の最大値と最小値の差を、声帯音源微分波の負ピークの大きさとピッチ周期で除した値をNAQ(Normalized Amplitude Quotient)として定義し、この値が大きい場合にはBreathyな声(以降では、弱い声と称する)であり、小さい場合にはPressedな声(以降では、強い声と称する)であるとしている。このNAQを用いて、入力された音声が弱い声であれば悲しみの傾向が強いと判断でき、強い声であれば喜びの傾向が強いと判断できる。
しかしながら、NAQを用いて声帯の開閉に関する特徴量を抽出するためには、高精度に声帯音源波を抽出する必要があり、そのためにはDAP(Discrete All Poll Modeling)などの、高精度な声道特性の推定が必要となる。高精度な声道特性の推定は、非常の多くの処理量が必要であり、携帯機器などの組み込み機器でリアルタイムに動作させるには課題がある。一方、処理量が軽く、一般的な声道特性の推定法として線形予測分析があるが、この方法では高精度に音源波形を抽出することはできない。したがって、従来は、低演算量で高精度に声帯の開閉に関する特徴量を抽出することはできなかった。
そこで本発明は、低演算量で高精度に声帯の開閉に関する特徴量を抽出する情報処理装置を提供することを目的とする。
上記目的を達成するために、本発明による情報処理装置は、音声を入力する入力手段と、前記入力手段によって入力された音声をフレームに区分する区分手段と、前記区分手段から出力されたフレーム音声に対して線形予測分析を行って、線形予測の残差波形を算出し、この残差波形に基づいて声帯音源波に放射特性を加えた声帯音源微分波を推定する声帯音源微分波演算手段と、前記区分手段によって区分されるフレーム音声から基本周期を算出する基本周期演算手段と、前記声帯音源微分波演算手段によって推定された声帯音源微分波に対して、前記基本周期ごとに急峻な立ち上がりの最小位置と最大位置とを特定して、急峻な立ち上がりの最大位置と次の急峻な立ち上がりの最小位置とを結ぶ線分を取得し、取得した前記線分を一辺とする領域と前記声帯音源微分波の領域との差分から声の強弱を表す特徴量を算出する特徴量算出手段とを有することを特徴とする。
本発明によれば、低演算量で高精度に声帯の開閉に関する特徴量を抽出することができる。
以下、本発明の実施形態について図面を参照して説明する。
図1は、本実施形態に係る情報処理装置の構成を示すブロック図である。情報処理装置1は、制御部51、記憶部52、操作部53、音声入出力部54、表示部55を備えている。制御部51はCPU、ROM、RAMなどによって構成され、記憶部52に記憶されたプログラムを実行し、情報処理装置1全体を制御する。その1つとして制御部51は、声帯特徴量取得部100を有する。操作部53は、ユーザからの操作を制御部51へ伝える。音声入出力部54は、スピーカやマイクを含み、マイクによって入力された音を制御部51へ伝える。また、制御部51の制御に従って、スピーカから音を出力する。表示部55は、液晶ディスプレイなどによって構成され、制御部51の制御に従って文字や画像を表示する。
声帯特徴量取得部100は、例えば音声入出力部54のマイクを用いて入力された音声や、記憶部52に記憶されている音声などが入力され、声の張りを表す値(以降、声帯特徴量と称する)を出力する。この声の張りとは、声帯の振動によって決まると考えられる。声帯が振動することによって起こる声帯音源波は、声道を通って、口から放射されることで音声として発せられる。この放射による周波数特性(放射特性)は微分によって近似されることが一般的に知られている。つまり、音声波形Sは、声帯音源波と放射特性を表すために声帯音源波を微分して得られる波形(以降、声帯音源微分波と称する)Gと、声道特性Vとを用いて、S=G・Vと表すことができる。そこで、声帯特徴量取得部100では、入力される音声波形Sから声帯音源微分波Gを推定し、推定した声帯音源微分波Gを用いて、声帯特徴量を算出して出力する。
図2は、声帯特徴量取得部100の機能を示すブロック図である。声帯特徴量取得部100は、発話区間区分手段101、線形予測係数演算手段102、残差波形演算手段103、声帯音源微分波演算手段104、基本周期演算手段105、声帯特徴量演算手段106を有する。
声帯特徴量取得部100には、例えば音声入出力部54のマイクを用いて入力された音声や、記憶部52に記憶されている音声などが入力される。入力音声は、発話区間区分手段101に入力される。
発話区間区分手段101では、入力された音声を所定の時間長(例えば30msec)のフレームに区分する。発話区間区分手段によって区分されたフレーム音声は、線形予測係数演算手段102に入力するとともに、基本周期演算手段105に入力する。
線形予測係数演算手段102では、入力されたフレーム音声に対して窓掛けを行ったうえで線形予測分析を行い、線形予測係数を算出する。算出した線形予測係数は、残差波形演算手段103に出力する。
残差波形演算手段103では、線形予測係数を用いて声道逆フィルタを形成し、その声道逆フィルタに線形予測係数演算手段102で窓掛けを行ったフレーム音声を入力して、残差波形を取得し、声帯音源微分波演算手段104へ出力する。線形予測分析によって算出された線形予測係数は主に声道特性に関する情報を有しているため、残差波形はおおよそ音声の声道特性を除去した波形とみなすことができる。この残差波形を用いて後述の声帯特徴量の算出処理を行うため、声道特性(個人差)が声帯特徴量に及ぼす影響を低減することができる。
声帯音源微分波演算手段104では、残差波形を積分して声帯音源微分波を推定する。残差波形と抽出されるべき声帯音源微分波とを比較すると、残差波形はフラットな周波数特性を有するのに対して、声帯音源微分波は、一般的に−6dB/octの傾斜(周波数が2倍になる(1オクターブ上がる)ごとに6dB下がる)を持つことが知られている。線形予測分析は、残差波形の周波数特性がフラットになるように線形予測係数を算出する処理なので、残差波形からは、声道特性のみならず、声帯音源微分波が本来有する周波数特性も失われていることになる。そこで、声帯音源微分波を得るため、残差波形に対して−6dB/oct(1オクターブ上がるごとに6dB下げるような)処理を行う。この−6dB/octの処理には、例えば積分処理を用いる。離散信号に対する積分処理は、入力信号をx(n)、積分処理後の出力信号をy(n)、係数αを0≦α≦1とすると、式(1)によって実現することができる。
y(n)=x(n)+α・y(n−1) (1)
このような積分処理を行うと、αが1.0に近い場合、−6dB/octの特性が付加される。残差波形はフラットな周波数特性を有するため、積分処理を行うことで、−6dB/octの特性を付加することができる。なお、残差波形から声帯音源微分波を得る処理は積分処理に限定することはなく、例えば−6dB/octの特性を有するFIRフィルタによって処理しても良い。
以上の発話区間区分手段101、線形予測係数演算手段102、残差波形演算手段103、声帯音源微分波演算手段104の処理によって声帯音源微分波を推定することができる。
次に、図3を参照して、本発明が強い声と弱い声の程度の数値化(判別)に有効である理由を説明する。強い声と弱い声の「本来抽出されるべき声帯音源微分波」と「抽出される声帯音源微分波」を比較する。図3は、強い声と弱い声それぞれの本来抽出されるべき声帯音源微分波と抽出される声帯音源微分波の一例であって、「本来抽出されるべき声帯音源微分波」はLFモデルと呼ばれるパラメトリックな声帯音源波系モデルで生成しており、「抽出される声帯音源微分波」は、このLFモデルで生成した声帯音源微分波(本来抽出されるべき声帯音源微分波)を駆動源とし、全極モデルを声道フィルタとする、ソースフィルタモデルで合成した合成音声を線形予測分析して抽出している。
図3の例では、強い声の場合は、本来抽出されるべき声帯音源微分波の波形と抽出される声帯音源微分波の波形とが大差ないことが分かる。それに対して、弱い声は、本来抽出されるべき声帯音源微分波の波形と抽出される声帯音源微分波の波形との間に大きな差があることがわかる。このように、抽出される声帯音源微分波は、強い声か弱い声かに応じた特徴が表れる。
そこで、特徴量演算手段106では、声帯音源微分波演算手段104から入力される声帯音源微分波が、声の強さに応じて異なる特徴を有することを利用して、声の強さを表す特徴量を算出する。この特徴量の算出は、基本周期演算手段105によって算出される基本周期を用いて処理を行う。
基本周期演算手段105で基本周期を算出する場合には、発話区間区分手段101から出力されるフレームに切り分けられた入力音声から抽出しても良いし、残差波形演算手段103から出力される線形予測残差信号から抽出しても良いし、線形予測残差信号を低域濾波した信号を用いても良い。(図2のブロック図では、発話区間区分手段101から出力されるフレーム音声が基本周期演算手段105に入力される場合を示している。)また、基本周期抽出の手法も例えば自己相関を用いて自己相関係数のピーク位置を基本周期として抽出する手法などが考えられるが、特に限定されるものではない。なお、基本周期演算手段105によって基本周期が算出できない場合には、無声音であると判断して、特徴量演算手段106に対して当該フレーム音声が無声音であることを示す情報を出力する。この情報を特徴量演算手段106が受けると、当該フレームに対する特徴量算出の処理は行わない。基本周期演算手段105によって基本周期が算出できない場合とは、例えば自己相関係数のピーク位置を用いて基本周期を取得する際、自己相関係数のピーク位置が人の声の基本周期の範囲から逸脱した箇所に現れたり、ノイズのようなピークが得られたりする場合である。
特徴量演算手段106には、声帯音源微分波演算手段104から出力されるフレームごとの声帯音源微分波と、基本周期演算手段105から出力されるフレームごとの基本周期とが入力される。特徴量演算手段106は、声帯音源微分波が基本周期ごとに有する急峻な立ち上がり位置を特定し、隣り合う立ち上がり位置で挟まれた区間の波形によって強い声か弱い声かを表す特徴量を算出する。
声帯音源微分波を用いて強い声か弱い声かを表す特徴量の算出の概要について図4を用いて説明する。図4は、強い声と弱い声の特徴的な声帯音源微分波の例を表している。強い声の場合、ある立ち上がりの最大位置2Tから次の立ち上がりの最小位置3Bまでを結んだ線分よりも声帯音源微分波の各サンプルの方が高い値となる。それに対して、弱い声の場合、ある立ち上がりの最大位置2Tから次の立ち上がりの最小位置3Bまでを結んだ線分よりも声帯音源微分波のサンプルの方が低い値となる場合が多い。そこで、ある立ち上がり位置の最大位置から次の立ち上がり位置の最小位置の区間において、声帯音源微分波から立ち上がり位置によって特定される線分を差し引いた差分の合計値を考える。この差分の合計値は、図4のハッチングで示した範囲の面積を求めることに相当する。ただし、立ち上がり位置によって特定される線分よりも上に位置するハッチングで示した範囲の面積はプラスの値であるのに対して、線分よりも下に位置するハッチングで示した範囲の面積はマイナスの値である。
また、総和のみならず、重み付き総和を算出しても良い。予め、結果が良くなるような重みを用意しておき、この重み係数を用いて重み付き総和を算出することで、声の強さの数値化精度を向上させることができる。
具体的には、主観などにより声の張り度合いを点数付けした音声を用意しておき、この音声から声の張りに関する特徴量を算出し、この点数と特徴量との相関がなるべく大きくなるように重み係数を算出することで、高精度な声の張りに関する特徴量の抽出が可能となる。重み係数の算出方法は、例えばヒューリスティックに行っても良いし、GA(遺伝的アルゴリズム)やNN(ニューラルネットワーク)などの逐次更新を繰り返す手法を用いても良い。また図5の様に、あるフレームnにおいて、線分が位置する区間を区間数Mに分割し、この小区間ごとの線分と声帯音源微分波で囲まれる小面積をSnmとし、重み係数をWmとすると、そのフレームにおける特徴量Xnは式(2)で表されるので、このXnと主観評価点数Ynとの相関を最大化するために、正準相関分析を用いても良い。こうすることで、声の張りに関する特徴量と主観などで点数付けした声の張り度合いとの相関を最大化するための重み係数を解析的に算出することができ、結果的に声の張りに関する特徴量の抽出精度を向上することができる。
Figure 0004970371
図4の場合、強い声の声帯音源微分波では、ハッチングで示した範囲は線分よりも上に位置しているため、差分の合計値がプラスの値となる。それに対して弱い声の声帯音源波では、ハッチングで示した範囲は線分よりも下に位置しているのがほとんどであるため、差分の合計値がマイナスの値となる。
このように、声帯音源微分波と立ち上がり位置によって特定される線分との差分は、強い声と弱い声によって大きく異なるため、この差分に基づいて強い声か弱い声かを定量的に表す特徴量を算出することができる。
図6は特徴量演算手段106の具体的な処理を示すフローチャートである。まず特徴量演算手段106は、入力されたフレームごとの声帯音源微分波を微分する(S201)。なお、声帯音源微分波演算手段104において、残差波形を積分することによって声帯音源微分波を算出する場合、残差波形が声帯音源微分波を微分した波形に相当するため、残差波形演算手段103の出力である残差波形を特徴量演算部106に入力して、声帯音源微分波を微分した波形として用いても良い。
次に、基本周期ごとに声帯音源微分波を微分して得られた値が最大のサンプルを探索する(S202)。このサンプルが声帯音源微分波の増加量が最大になる位置である。そして、最大のサンプルから前後に声帯音源微分波を微分して得られた値が最大値の所定の割合以上の値を有するサンプルがどこまで連続しているかを探索する。この所定の割合は、経験的に求められる値であって、ここでは例えば70%であるとして説明する。ある基本周期内で声帯音源微分波を微分して得られた値が最大のサンプルを基準として、前方向に1サンプルずつ探索し、声帯音源微分波を微分して得られた値が当該最大値の70%を維持している連続したサンプルのうち、一番前のサンプルを見つけ、この一番前のサンプルを急峻な立ち上がりの最小位置とする(S203)。また、後ろ方向も同様に1サンプルずつ探索することによって、最大値の70%を維持している連続した一番後ろのサンプルを見つけ、この一番後ろのサンプルを急峻な立ち上がりの最大位置とする(S204)。
そして、急峻な立ち上がりの最小位置と1つ前の急峻な立ち上がりの最大位置とを結ぶ線分を特定し(S205)、この1つ前の立ち上がりの最大位置と次の立ち上がりの最小位置の区間で、声帯音源微分波と線分との差分の合計値を算出する(S206)。そして、この合計値を基本周期で除算した結果を特徴量として出力する(S207)。基本周期は、個人差や、言語や方言によって異なる、抑揚によって変化するため、合計値を基本周期で除することによって、特徴量から基本周期の影響を低減することができる。
なお、基本周期ごとの声帯音源微分波と線分との差分の合計値を基本周期で除した値を特徴量として出力するとしたが、基本周期ごとの声帯音源微分波と線分との差分の合計値を基本周期で除した値をフレームなど所定の単位ごとに合計した値を特徴量として出力しても良い。
また、特徴量を算出するときに、基本周期で除するのではなく、フレーム単位の実効値や基本周期単位の実効値で除しても良いし、最大振幅で除しても良い。このような値で除することによって、声の大きさ、マイクの距離、マイクゲインなどパワーの違いの特徴量への影響を低減することができる。
以上のような実施形態の構成をとることで、基本周期やパワーに依存しない特徴を抽出するため、話し方や声の大きさの影響を低減して、感情抽出に必要な声の張り(声の強さ)を表す特徴量を高精度に抽出することができる。また、声の張りを表す特徴量を抽出するときには、学習を必要としないため、低演算量かつ特別なチューニングを必要とせずに特徴量の抽出をおこなうことができる。
なお、上記実施形態に限定されることはなく、本発明の要旨を逸脱しない範囲において、適宜変更しても良い。
本発明の実施形態に係る情報処理装置の構成を示すブロック図。 本発明の実施形態に係る声帯特徴量取得部の機能を示すブロック図。 強い声から抽出される声帯音源微分波と弱い声から抽出される声帯音源微分波の違いを示す図。 本発明の実施形態に係る情報処理装置の特徴量演算手段での処理を説明するための図。 本発明の実施形態に係る情報処理装置の特徴量演算手段での処理を説明するための図。 本発明の実施形態に係る情報処理装置の特徴量演算手段の処理フローチャート。
符号の説明
1 情報処理装置、51 制御部、52 記憶部、53 操作部、54 音声入出力部、55 表示部、100 声帯特徴量取得部、101 発話区間区分手段、102 線形予測係数演算手段、103 残差波形演算手段、104 声帯音源微分波演算手段、105 基本周期演算手段、106 声帯特徴量演算手段

Claims (6)

  1. 音声を入力する入力手段と、
    前記入力手段によって入力された音声をフレームに区分する区分手段と、
    前記区分手段から出力されたフレーム音声に対して線形予測分析を行って、線形予測の残差波形を算出し、この残差波形に基づいて声帯音源波に放射特性を加えた声帯音源微分波を推定する声帯音源微分波演算手段と、
    前記区分手段によって区分されるフレーム音声から基本周期を算出する基本周期演算手段と、
    前記声帯音源微分波演算手段によって推定された声帯音源微分波に対して、前記基本周期ごとに急峻な立ち上がりの最小位置と最大位置とを特定して、急峻な立ち上がりの最大位置と次の急峻な立ち上がりの最小位置とを結ぶ線分を取得し、取得した前記線分を一辺とする領域と前記声帯音源微分波の領域との差分から声の強弱を表す特徴量を算出する特徴量算出手段と
    を有することを特徴とする情報処理装置。
  2. 前記特徴量算出手段は、前記差分の合計値を特徴量として算出することを特徴とする請求項1に記載の情報処理装置。
  3. 前記特徴量算出手段は、前記差分の荷重和を特徴量として算出することを特徴とする請求項1に記載の情報処理装置。
  4. 前記基本周期演算手段によってフレーム音声の基本周期が算出されなかった場合、当該フレームに対して前記特徴量算出手段による特徴量の算出を行わないことを特徴とする請求項1に記載の情報処理装置。
  5. 前記特徴量算出手段は、
    前記声帯音源微分波の前記基本周期ごとの急峻な波形の立ち上がりの最小位置と最大位置を、前記基本周期ごとに声帯音源微分波を微分して得られる値が最大値のサンプルから前後に前記微分して得られる値が前記最大値の所定の割合以上のサンプルが連続する区間から探索することを特徴とする請求項1に記載の情報処理装置。
  6. 入力された音声をフレームに区分する区分機能と、
    前記区分機能によって得られるフレーム音声に対して線形予測分析を行って、線形予測の残差波形を算出し、この残差波形に基づいて声帯音源波に放射特性を加えた声帯音源微分波を推定する声帯音源微分波演算機能と、
    前記区分機能によって区分されるフレーム音声から基本周期を算出する基本周期演算機能と、
    前記声帯音源微分波演算機能によって推定された声帯音源微分波に対して、前記基本周期ごとに急峻な立ち上がりの最小位置と最大位置とを特定して、急峻な立ち上がりの最大位置と次の急峻な立ち上がりの最小位置とを結ぶ線分を取得し、取得した前記線分を一辺とする領域と前記声帯音源微分波の領域との差分から声の強弱を表す特徴量を算出する特徴量算出機能と
    を有することを特徴とする音声特徴量算出プログラム。
JP2008184897A 2008-07-16 2008-07-16 情報処理装置 Expired - Fee Related JP4970371B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008184897A JP4970371B2 (ja) 2008-07-16 2008-07-16 情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008184897A JP4970371B2 (ja) 2008-07-16 2008-07-16 情報処理装置

Publications (2)

Publication Number Publication Date
JP2010026068A JP2010026068A (ja) 2010-02-04
JP4970371B2 true JP4970371B2 (ja) 2012-07-04

Family

ID=41731986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008184897A Expired - Fee Related JP4970371B2 (ja) 2008-07-16 2008-07-16 情報処理装置

Country Status (1)

Country Link
JP (1) JP4970371B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3035939B2 (ja) * 1989-11-30 2000-04-24 日本電気株式会社 音声分析合成装置
JPH1185197A (ja) * 1997-09-02 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声信号分析装置
JP3166673B2 (ja) * 1997-09-08 2001-05-14 日本電気株式会社 ボコーダ符号化復号装置
JP3673507B2 (ja) * 2002-05-16 2005-07-20 独立行政法人科学技術振興機構 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
JP4177751B2 (ja) * 2003-12-25 2008-11-05 株式会社国際電気通信基礎技術研究所 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ

Also Published As

Publication number Publication date
JP2010026068A (ja) 2010-02-04

Similar Documents

Publication Publication Date Title
US20200160839A1 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
CN107657964A (zh) 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器
Martinez et al. Prosodic features and formant modeling for an ivector-based language recognition system
JPH10133693A (ja) 音声認識装置
CN102222499B (zh) 声音判别系统、声音判别方法以及声音判别用程序
Subhashree et al. Speech emotion recognition: performance analysis based on fused algorithms and GMM modelling
Chandrashekar et al. Breathiness indices for classification of dysarthria based on type and speech intelligibility
Přibil et al. GMM-based speaker gender and age classification after voice conversion
Dissen et al. Formant Estimation and Tracking Using Deep Learning.
Jena et al. Gender recognition of speech signal using knn and svm
Hosain et al. Deep-learning-based speech emotion recognition using synthetic bone-conducted speech
Submitter et al. Gender recognition and classification of speech signal
JP7159655B2 (ja) 感情推定システムおよびプログラム
WO2003098597A1 (en) Syllabic kernel extraction apparatus and program product thereof
Badr et al. Estimating age in short utterances based on multi-class classification approach
JP2017520016A5 (ja) パラメトリック音声合成システムに基づく声門パルスモデルの励起信号形成方法
Ahmed et al. Enhancing English accent identification in automatic speech recognition using spectral features and hybrid CNN-BiLSTM model
JP2007219286A (ja) 音声のスタイル検出装置、その方法およびそのプログラム
Gowda et al. Formant tracking using quasi-closed phase forward-backward linear prediction analysis and deep neural networks
Mohanta et al. Classifying emotional states using pitch and formants in vowel regions
Srinivasan et al. Classification of Normal and Pathological Voice using GA and SVM
JP4970371B2 (ja) 情報処理装置
Mannem et al. Acoustic and Articulatory Feature Based Speech Rate Estimation Using a Convolutional Dense Neural Network.
Deshpande et al. A Speech Emotion Recognition System for Improved Communication and Enhancing Human-Machine Interaction
Hora et al. Linear frequency residual cepstral coefficients for speech emotion recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101119

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20101119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120404

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees