JPH0744727A

JPH0744727A - 画像作成方法およびその装置

Info

Publication number: JPH0744727A
Application number: JP5184260A
Authority: JP
Inventors: Makoto Akaha; 誠赤羽
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1993-07-27
Filing date: 1993-07-27
Publication date: 1995-02-14

Abstract

(57)【要約】【目的】入力音声に同期して口形状の変化するアニメ
ーションを、容易に得ることができるようにする。【構成】音声から抽出した音響パラメータを、画像の
口形状を変化させるための加重パラメータに変換する変
換関数を、重回帰分析によってあらかじめ求めておく。
そして、音響分析部１において、入力された音声から、
音響パラメータが抽出され、加重パラメータ変換部２に
おいて、その音響パラメータが、あらかじめ求められた
変換関数によって、加重パラメータに変換される。そし
て、その加重パラメータに基づいて、口形状の変化する
アニメーションが、顔画像合成器３により生成される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力された音声に同期
して、例えば口形状を変化させるアニメーションを作成
する場合などに用いて好適な画像作成方法およびその装
置に関する。

【０００２】

【従来の技術】従来、音声にあわせて口や顎などが動く
アニメーションは、そのように口や顎が動いているよう
に見えるように、段階的に口や顎の形が変化する複数の
セル画を用いて作成される。

【０００３】

【発明が解決しようとする課題】従って、音声にあわせ
て口や顎などが動くアニメーションを作成するには、多
くのセル画を描かなければならず、非常に多くの労力が
必要であった。

【０００４】そこで、音声から、音響パラメータを抽出
し、その音響パラメータに対応して、アニメーションの
口や顎が動くように、アニメーションのパラメータを変
化させる方法が考えられる。

【０００５】しかしながら、従来においては、音響パラ
メータから、アニメーションのパラメータを算出する場
合、動きに違和感のないアニメーションを得ようとする
と、音響パラメータに対し非線形演算処理を行う必要が
あり、従ってその負荷に耐えることのできる装置を実現
しようとすると、装置が大型化、高コスト化する課題が
あった。

【０００６】本発明は、このような状況に鑑みてなされ
たものであり、音声に同期して、表情が豊かに変化する
画像を、容易に得ることができるようにするものであ
る。

【０００７】

【課題を解決するための手段】本発明の画像作成方法
は、入力された音声に同期した画像を作成する画像作成
方法において、音声から抽出した音響パラメータを、画
像の口形状を変化させるための加重パラメータに変換す
る変換関数を、重回帰分析によってあらかじめ求めてお
き、変換関数によって、音響パラメータを加重パラメー
タに変換し、加重パラメータに基づいて、あらかじめ設
定された基本口形状を変化させ、画像を作成することを
特徴とする。

【０００８】この画像作成方法は、基本口形状が、
「あ」、「い」、および「う」を発音する口形状、並び
に口を閉じた形の口形状でなるようにすることができ
る。

【０００９】本発明の画像作成装置は、入力された音声
に同期した画像を作成する画像作成装置において、音声
を音響分析し、音響パラメータを算出する分析手段とし
ての音響分析部１と、重回帰分析によってあらかじめ求
められた、音響パラメータを、画像の口形状を変化させ
るための加重パラメータに変換する変換関数によって、
音響パラメータを加重パラメータに変換する変換手段と
しての加重パラメータ変換部２と、加重パラメータに基
づいて、あらかじめ設定された基本口形状を変化させ、
画像を作成する作成手段としての顔画像合成器３とを備
えることを特徴とする。

【００１０】この画像作成装置は、基本口形状が、
「あ」、「い」、および「う」を発音する口形状、並び
に口を閉じた形の口形状でなるようにすることができ
る。

【００１１】

【作用】本発明の画像作成方法および画像作成装置にお
いては、音声を音響分析し、音響パラメータを算出し
て、重回帰分析によってあらかじめ求められた、音響パ
ラメータを、画像の口形状を変化させるための加重パラ
メータに変換する変換関数によって、加重パラメータに
変換する。そして、加重パラメータに基づいて、あらか
じめ設定された基本口形状を変化させ、画像を作成す
る。従って、音声に同期して口形状の変化する画像を、
少ない演算量によって得ることができる。

【００１２】

【実施例】図１は、本発明を適用した音声顔画像同期装
置の一実施例の構成を示すブロック図である。発声され
た音声は、音声分析部１に入力される。音声分析部１
は、入力された音声から、音声の音響パラメータとして
の、例えばＬＰＣケプストラム係数を抽出し、加重パラ
メータ変換部２に出力する。加重パラメータ変換部２
は、音声分析部１からのＬＰＣケプストラムを、入力さ
れた音声に対応して、口形状の変化するアニメーション
を生成するための加重パラメータに変換し、顔画像合成
器３に出力する。顔画像合成器３は、加重パラメータ変
換部２からの加重パラメータに基づいて、口形状の変化
するアニメーションを生成し、例えば図示せぬディスプ
レイに表示する。

【００１３】なお、本明細書中において、口形状とは、
特に断らない限り、口の他、声を発するために動く、例
えば下顎などの顔の部分すべてを意味する。

【００１４】次に、その動作について説明する。音響分
析部１は、例えば図２に示すような、入力された音声を
サンプリングして、例えば線形予測分析処理などの音響
分析処理を施し、音声のスペクトル包絡特性を表す線形
予測係数を算出する。なお、本実施例においては、入力
された音声を、例えば８ｋＨｚでサンプリングし、２４
０サンプル（＝３０ｍｓ）分の幅を有するハミング窓
を、１２０サンプル（＝１５ｍｓ）ずつシフトしながら
かけ、いわゆる自己相関法によって、１０次までの線形
予測係数を算出するものとする。

【００１５】そして、音響分析部１は、以上のようにし
て算出した線形予測係数から、広く知られた再帰式（例
えば、「ディジタル音声処理」、古井著、東海大学出版
会発行、４７ページに記載されている再帰式）にしたが
って、線形予測係数と同次数までのＬＰＣケプストラム
係数を算出し、加重パラメータ変換部２に出力する。従
って、本実施例では、１５ｍｓごとに１０次までのＬＰ
Ｃケプストラム係数が、加重パラメータ変換部２に出力
されることになる。

【００１６】ここで、ＬＰＣケプストラムは、少ない次
数で、音声のスペクトル包絡特性を、精度良く表すこと
が知られている。

【００１７】加重パラメータ変換部２は、重回帰分析に
よってあらかじめ求めた、後述する変換関数（重回帰
式）によって、音響分析部１から時系列に出力されるＬ
ＰＣケプストラム係数を、例えば図３に示すような、ア
ニメーションの口形状を表現するための、例えば４つの
基本パターン（以下、口形状オブジェクトという）それ
ぞれの、いわば重みとしての加重パラメータＷ₁乃至Ｗ₄
に変換し、顔画像合成器３に順次出力する。

【００１８】顔画像合成器３は、加重パラメータ変換部
２より出力される加重パラメータＷ₁乃至Ｗ₄と、あらか
じめ設定された基本口形状との間に、例えば多重内挿法
を適用することにより、音響分析部１に入力された音声
に同期して口の形状（口形状）の変化するアニメーショ
ンを生成する。

【００１９】即ち、顔画像合成器３には、図３に示す、
アニメーションの口形状の基本パターンとしての４つの
口形状オブジェクトが記憶されており、各口形状オブジ
ェクトを、加重パラメータ変換部２からの加重パラメー
タＷ₁乃至Ｗ₄に基づいて混合（多重内挿）し、音響分析
部１に入力された音声に対応した口形状のアニメーショ
ンを生成する。

【００２０】ここで、図３（Ａ）の口形状オブジェクト
は、下顎をおろして口を開いた「あ」の音声を発声する
口形状を示し、図３（Ｂ）の口形状オブジェクトは、歯
を剥いて唇を横に開いた「い」の音声を発声する口形状
を示している。また、図３（Ｃ）の口形状オブジェクト
は、唇をつぼめた「う」の音声を発声する口形状を示
し、図３（Ｄ）の口形状オブジェクトは、自然に口を閉
じたときの口形状を示している。

【００２１】例えば「え」の音声を発声する口形状は、
「あ」の音声を発声する口形状（図３（Ａ））と、
「い」の音声を発声する口形状（図３（Ｂ））との中間
の口形状で表現することができ、また「お」の音声を発
声する口形状は、「あ」の音声を発声する口形状（図３
（Ａ））と、「う」の音声を発声する口形状（図３
（Ｃ））との中間の口形状で表現することができる。

【００２２】さらに、子音を発声する口形状など、上述
の「あ」、「い」、「う」、「え」、および「お」の５
母音以外の口形状も、図３に示す口形状オブジェクト
を、所定の割合（重み）で混合することにより表現する
ことができる。

【００２３】従って、顔画像合成器３においては、図５
に示すように、加重パラメータ変換部２から時系列に出
力される加重パラメータＷ₁乃至Ｗ₄それぞれに基づい
て、「あ」、「い」、「う」、口を閉じた形を表現する
口形状オブジェクトＮ₁乃至Ｎ₄を混合（多重内挿）（図
中、加算演算し（＋）で示す）する割合を変えることに
より、音響分析部１に入力された音声に対応して、口形
状Ａの変化するアニメーションが生成される。

【００２４】ここで、図２に示す波形の音声に対する、
「あ」、「い」、または「う」それぞれの口形状オブジ
ェクトＮ₁乃至Ｎ₃の加重パラメータＷ₁乃至Ｗ₃の変化を
図４に示す。加重パラメータは、０乃至１の範囲の値を
とり、それが１．０の場合、その加重パラメータに対す
る口形状オブジェクトは、そのまま他の口形状オブジェ
クトと混合される。そして、加重パラメータが１．０よ
り小さい値になるにしたがって、その加重パラメータに
対する口形状オブジェクトは、元の形状をほぼ相似に小
さくした形状にされ、他の口形状オブジェクトと混合さ
れる。

【００２５】また、加重パラメータが０の場合、その加
重パラメータに対する口形状オブジェクトは、他の口形
状オブジェクトと混合されない。従って、この場合、加
重パラメータが０である口形状オブジェクトは用いられ
ずに、アニメーションの口形状が生成されることにな
る。

【００２６】次に、音響分析部１から時系列に出力され
るＬＰＣケプストラム係数を、加重パラメータに変換す
る変換関数（重回帰式）を、重回帰分析によって求める
方法について説明するが、その準備として重回帰分析に
ついて簡単に説明する。

【００２７】なお、重回帰分析の詳細については、例え
ば「多変量解析のはなし」、有馬、石村著、東京図書発
行や、「多変量解析法」、奥野他著、日科技連発行な
どに記載されている。

【００２８】重回帰分析法は、多変量解析法の１種で、
目的変量ｙと呼ばれる結果と、それに影響を与える、説
明変量ｘ_q（ｑ＝１，２，・・・，Ｑ）と呼ばれる原因
を用いて、最も誤差の少ない、目的変量ｙの予測値Ｙを
与える式（重回帰式）Ｙ＝ａ₀＋ａ₁ｘ₁＋ａ₂ｘ₂＋・・・＋ａ_Qｘ_Q （１）を求め、これにより目的変量ｙを予測する手法である。

【００２９】なお、重回帰式（１）において、ａ₀は定
数項と呼ばれ、ａ₁乃至ａ_Qは回帰係数（偏回帰係数）と
呼ばれる。

【００３０】いま、次のようなＩ組の、説明変量として
の原因から、目的変量としての結果が得られた場合を考
える。

【００３１】目的変量ｙ₁←説明変量ｘ₁₁，ｘ₂₁，・・・，ｘ_Q1 目的変量ｙ₂←説明変量ｘ₁₂，ｘ₂₂，・・・，ｘ_Q2 ・・・目的変量ｙ_i←説明変量ｘ_1i，ｘ_2i，・・・，ｘ_Qi ・・・目的変量ｙ_I←説明変量ｘ_1I，ｘ_2I，・・・，ｘ_QI

【００３２】最も誤差の少ない、目的変量ｙの予測値Ｙ
を与える重回帰式（１）を求めるということは、式｜ｙ
−Ｙ｜が小さくなるように、回帰係数ａ₁乃至ａ_Qおよび
定数項ａ₀を求めるということになる。

【００３３】説明変量ｘ_qiに対する予測値Ｙ_iは、式
（１）から式Ｙ_i＝ａ₀＋ａ₁ｘ_1i＋ａ₂ｘ_2i＋・・・＋ａ_Qｘ_Qi によって与えられ、従ってその目的変量ｙ_iと予測値Ｙ_i
との誤差Ｅ_iは、式Ｅ_i＝｜ｙ_i−（ａ₀＋ａ₁ｘ_1i＋ａ₂ｘ_2i＋・・・＋ａ_Qｘ_Qi）｜（２）によって与えられる。

【００３４】式（２）を最小にするａ₀乃至ａ_Qを求める
には、最小自乗法に基づき、次式で示される自乗誤差ε
を最小にするａ₀乃至ａ_Qを求めれば良い。 ε＝ΣＥ_i ² 但し、Σは、ｉ（＝１，２，・・・，Ｉ）に関するサメ
ーションを意味する。

【００３５】この場合、自乗誤差εを、ａ₀乃至ａ_Qで偏
微分し、その結果得られるＱ＋１個の式をそれぞれ０と
おいて、Ｑ＋１個の連立方程式を解くことにより、自乗
誤差εを最小にするａ₀乃至ａ_Qを求めることができる。
これは、次のようにして得られる連立方程式を解くこと
に等しいことが知られている。

【００３６】即ち、説明変量ｘ_qiとｘ_piとの共分散をｓ
_qp（但しｐ＝１，２，・・・Ｑ）、説明変量ｘ_qiと目的
変量ｙ_iとの共分散をｓ_qy、説明変量ｘ_qiの平均値をｘ'
_q、目的変量ｙ_iの平均値をｙ'とすると、連立方程式ｓ₁ ²ａ₁＋ｓ₁₂ａ₂＋・・・＋ｓ_1Qａ_Q＝ｓ_1y ｓ₂₁ａ₁＋ｓ₂ ²ａ₂＋・・・＋ｓ_2Qａ_Q＝ｓ_2y ・・・ｓ_Q1ａ₁＋ｓ_Q2ａ₂＋・・・＋ｓ_Q ²ａ_Q＝ｓ_Qy ａ₀＝ｙ'−（ｘ'₁ａ₁＋ｘ'₂ａ₂＋・・・＋ｘ'_Qａ_Q）（３）を解くことによって、ａ₀乃至ａ_Qを求めることができ
る。

【００３７】なお、ｓ_q ²は、ｘ_qiとｘ_qiとの共分散
ｓ_qq、即ちｘ_qiの分散を表す。また、ｓ_qp＝ｓ_pqである
ので、連立方程式（３）を得るにあたっては、すべての
ｐとｑについてｓ_qpを求めるのではなく、ｓ_qpおよびｓ
_pqのうちのいずれか一方を求めれば良い。

【００３８】加重パラメータ変換部２で用いる変換関数
としての重回帰式を求めるにあたっては、まず学習系列
としての、音韻ラベルのふられている音声信号を、音響
分析部１で、上述したようにして音響分析し、Ｑ次まで
のＬＰＣケプストラム係数ｘ_qを求める。

【００３９】また、ＬＰＣケプストラム係数ｘ_qを求め
た音声信号に対応する口形状を有する顔画像を、例えば
ビデオテープなどに録画しておき、その再生顔画像の口
形状を得ることができる、図３に示す４つの口形状オブ
ジェクトそれぞれの加重パラメータｗ₁乃至ｗ₄を求め
る。

【００４０】これにより、ある音韻が発声されている時
刻ｔにおける、ＬＰＣケプストラム係数ｘ_qと、加重パ
ラメータｗ₁乃至ｗ₄とを対応付けることができる。

【００４１】ここで、学習系列としての音声信号は、装
置を日本語に適用する場合、複数の話者について、日本
語の音韻の組み合わせをできるだけ多く含む単語セット
または文章セットを用いるようにする。

【００４２】以上のようにして対応付けたＬＰＣケプス
トラム係数ｘ_qと加重パラメータｗ₁乃至ｗ₄とを、それ
ぞれ説明変量と目的変量とし、目的変量としての加重パ
ラメータｗ₁乃至ｗ₄それぞれに対する、式（３）に対応
する連立方程式をたてる。

【００４３】そして、その連立方程式を解くことによ
り、説明変量としてのＬＰＣケプストラム係数ｘ_qを、
目的変量としての加重パラメータｗ₁乃至ｗ₄の予測値Ｗ
₁乃至Ｗ₄にそれぞれ変換する重回帰式としての変換関数Ｗ₁＝ａ_0W1＋ａ_1W1ｘ₁＋ａ_2W1ｘ₂＋・・・＋ａ_QW1ｘ_Q Ｗ₂＝ａ_0W2＋ａ_1W2ｘ₁＋ａ_2W2ｘ₂＋・・・＋ａ_QW2ｘ_Q Ｗ₃＝ａ_0W3＋ａ_1W3ｘ₁＋ａ_2W3ｘ₂＋・・・＋ａ_QW3ｘ_Q Ｗ₄＝ａ_0W4＋ａ_1W4ｘ₁＋ａ_2W4ｘ₂＋・・・＋ａ_QW4ｘ_Q （４）を得る。

【００４４】加重パラメータ変換部２では、音響分析部
１から時系列に出力されるＬＰＣケプストラム係数ｘ_q
が、式（４）に示す変換関数によって加重パラメータＷ
₁乃至Ｗ₄にそれぞれ変換され、顔画像合成器３に順次出
力される。

【００４５】そして、顔画像合成器３においては、上述
したように、加重パラメータ変換部２から時系列に出力
される加重パラメータＷ₁乃至Ｗ₄それぞれに基づいて、
「あ」、「い」、「う」、口を閉じた形を表現する口形
状オブジェクトＮ₁乃至Ｎ₄を混合（多重内挿）する割合
を変えることにより、音響分析部１に入力された音声に
同期して口形状の変化するアニメーションが生成され
る。

【００４６】以上のように、重回帰分析によって得られ
た重回帰式としての変換関数を用いるようにしたので、
線形演算で、音声の音響パラメータとしてのＬＰＣケプ
ストラム係数を加重パラメータに変換することができ
る。さらに、その演算量は少なくて済み、これにより、
処理の高速化、装置の小型化、低コスト化を図ることが
できる。

【００４７】従って、本発明を、例えば音声入出力イン
ターフェイスを装備しているワークステーションなどに
適用しても、ソフトウェア処理だけで、口形状の変化す
るアニメーション生成のリアルタイム処理を行うことが
可能となる。

【００４８】さらに、本発明を、例えばボイスメールの
読み上げ処理や、演算能力の低いコンピュータなどに適
用する場合においては、口以外の顔画像を合成するため
のパラメータをあらかじめ計算しておくようにすること
により、即ち口以外の部分の顔画像を完成しておくよう
にすることにより、入力音声に同期して口の動く顔画像
生成のリアルタイム処理を行うことが可能となる。

【００４９】また、本発明においては、自然音声（実際
に発声された音声）から得られたＬＰＣケプストラム係
数を変換した加重パラメータを用いるようにしたので、
口形状の変化が、自然なアニメーションを得ることがで
きる。

【００５０】さらに、本発明においては、口形状が段階
的に変化する複数のセル画を描くことなく、声優が発し
た声に同期して口形状の変化するアニメーションを容易
に制作することができる。

【００５１】なお、本実施例においては、本発明を、ア
ニメーション制作に適用した場合について説明したが、
本発明は、この他、例えばコンピュータグラフィクスな
どのアプリケーション（例えば、上述のボイスメールの
読み上げ処理など）などにも適用することができる。

【００５２】また、本実施例では、加重パラメータに変
換する音声の音響パラメータとして、ＬＰＣケプストラ
ム係数を用いるようにしたが、その他のあらゆる音響パ
ラメータを用いるようにすることができる。

【００５３】即ち、例えば音声をＦＦＴ（高速フーリエ
変換）してスペクトル分析した分析結果や、音声をＢＰ
Ｆ（バンドパスフィルタ）でフィルタリングし、そのフ
ィルタ出力を全波整流平滑化したものをサンプリングし
た値（バンドパスフィルタバンク分析結果）（各ＢＰＦ
の通過帯域における音声のパワーの平均値）などを用い
るようにすることができる。

【００５４】さらに、音響パラメータとしては、例えば
フォルマントなどを用いるようにしても良いが、上述し
たＬＰＣケプストラム係数や、ＦＦＴによるスペクトル
分析結果、バンドパスフィルタバンク分析結果などのよ
うに、音声のスペクトル包絡特性を表す音響パラメータ
を用いる方が、その抽出精度が良く、また高速且つ安定
な音響分析を行うことができるので、より正確な口形状
のアニメーションを実現することができる。

【００５５】即ち、例えば子音の正確なフォルマントを
抽出することは困難であるが、子音から抽出したＬＰＣ
ケプストラム係数などのスペクトル包絡特性を表す音響
パラメータは、ある程度正確に、その子音の特徴を表
す。従って、音声のスペクトル包絡特性を表す音響パラ
メータを用いる方が、フォルマントなどを用いる場合に
比較して、より正確な口形状の変化が反映されることに
なる。

【００５６】

【発明の効果】以上の如く、本発明によれば、音声を音
響分析し、音響パラメータを算出して、重回帰分析によ
ってあらかじめ求められた、音響パラメータを、画像の
口形状を変化させるための加重パラメータに変換する変
換関数によって、加重パラメータに変換する。そして、
加重パラメータに基づいて、あらかじめ設定された基本
口形状を変化させ、画像を作成する。従って、音声に同
期して口形状の変化する画像を、少ない演算量によって
得ることができる。

【図面の簡単な説明】

【図１】本発明を適用した音声顔画像同期装置の一実施
例の構成を示すブロック図である。

【図２】音響分析部１に入力される音声の例を示す波形
図である。

【図３】口形状オブジェクトを示す図である。

【図４】図２の音声波形に対し、加重パラメータ変換部
２から時系列に出力される加重パラメータを示す図であ
る。

【図５】顔画像合成器３の動作を説明するための図であ
る。

【符号の説明】

１音響分析部２加重パラメータ変換部３顔画像合成器

Claims

【特許請求の範囲】

【請求項１】入力された音声に同期した画像を作成す
る画像作成方法において、前記音声から抽出した音響パラメータを、前記画像の口
形状を変化させるための加重パラメータに変換する変換
関数を、重回帰分析によってあらかじめ求めておき、前記変換関数によって、前記音響パラメータを前記加重
パラメータに変換し、前記加重パラメータに基づいて、あらかじめ設定された
基本口形状を変化させ、前記画像を作成することを特徴
とする画像作成方法。
【請求項２】前記基本口形状は、「あ」、「い」、お
よび「う」を発音する口形状、並びに口を閉じた形の口
形状でなることを特徴とする請求項１に記載の画像作成
方法。
【請求項３】入力された音声に同期した画像を作成す
る画像作成装置において、前記音声を音響分析し、音響パラメータを算出する分析
手段と、重回帰分析によってあらかじめ求められた、前記音響パ
ラメータを、前記画像の口形状を変化させるための加重
パラメータに変換する変換関数によって、前記音響パラ
メータを前記加重パラメータに変換する変換手段と、前記加重パラメータに基づいて、あらかじめ設定された
基本口形状を変化させ、前記画像を作成する作成手段と
を備えることを特徴とする画像作成装置。
【請求項４】前記基本口形状は、「あ」、「い」、お
よび「う」を発音する口形状、並びに口を閉じた形の口
形状でなることを特徴とする請求項３に記載の画像作成
装置。