JP2003036097A

JP2003036097A - 情報検出装置及び方法、並びに情報検索装置及び方法

Info

Publication number: JP2003036097A
Application number: JP2001225051A
Authority: JP
Inventors: Yasuhiro Tokuri; 康裕戸栗; Masayuki Nishiguchi; 正之西口
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2001-07-25
Filing date: 2001-07-25
Publication date: 2003-02-07
Also published as: US7315819B2; US20030036905A1

Abstract

(57)【要約】【課題】符号化音声データにおける話者の識別処理と
検索処理とを少ない演算量及び記憶容量で効率的に行
う。【解決手段】情報検索装置３０において、ＬＳＰ復号
部２２は、ブロック毎に読み込まれた符号化音声データ
からＬＳＰ情報のみを抽出して復号する。ＬＰＣ変換部
２３は、ＬＳＰ情報をＬＰＣ情報に変換し、ケプストラ
ム変換部２４は、得られたＬＰＣ情報を音声の特徴量で
あるＬＰＣケプストラムに変換する。ベクトル量子化部
２５は、ＬＰＣケプストラムにベクトル量子化を施し、
話者識別部２６は、ベクトル量子化の結果に基づいて話
者を識別する。また、識別された話者と検索条件とが条
件比較部３２で比較され、その結果に基づいて、検索結
果が出力される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報検出装置及び
方法、並びに情報検索装置及び方法に関するものであ
り、特に、音声データ又は音声画像データの話者識別と
話者検索を行うための情報検出装置及び方法、並びに情
報検索装置及び方法に関するものである。

【０００２】

【従来の技術】近年では、音声信号をディジタル化し、
そのディジタル音声信号を符号化して保存又は利用する
ことが多い。この音声の符号化方法は、大別して波形符
号化と分析合成符号化、そしてそれらを混在したハイブ
リッド符号化に分けることができる。

【０００３】ここで、波形符号化は、音声波形をできる
だけ忠実に再現できるように符号化するものであり、分
析合成符号化は、音声の生成モデルに基づいて信号をパ
ラメータで表現して符号化するものである。特に分析合
成符号化としては、線形予測（Linear Predictive Codi
ng:LPC）分析を用いた分析合成系が研究されている。例
えば、ハーモニック符号化や、合成による分析（A-b-S:
Analysis-by-Synthesis）法を用いたマルチパス駆動線
形予測符号化（ＭＰＣ）や最適ベクトルのクローズドル
ープサーチによる符号励起線形予測（ＣＥＬＰ）符号化
等がある。

【０００４】一般的に、ＬＰＣ分析を用いた符号化方式
では、線形予測分析（ＬＰＣ分析）によりスペクトルの
包絡情報を抽出し、ＬＰＣ情報をＰＡＲＣＯＲ係数（偏
自己相関関数：PARtial auto-CORrelation coefficien
t）やＬＳＰ（Linear Spectrum Pair）係数等に変換し
て符号化する。また、ブロック毎に有声音か無声音かを
判定して、有声音にはハーモニック符号化を適用し、無
声音にはＣＥＬＰ符号化を適用する方式や、さらには、
ＬＰＣ分析による分析合成符号化とそのＬＰＣ残差信号
に波形符号化を用いて符号化するハイブリッド方式も研
究されている。

【０００５】図１０に、ＬＰＣ分析を用いた一般的な音
声符号化装置の概略構成を示す。図１０において、入力
部１００から入力された音声信号Ｄ１００は、ＬＰＣ分
析部１０１でＬＰＣ分析が施されてＬＰＣ係数Ｄ１０１
が求められる。ＬＰＣ係数Ｄ１０１は、ＬＳＰ変換部１
０２においてＬＳＰパラメータＤ１０２に変換される。
ＬＳＰパラメータＤ１０２は、ＬＳＰ量子化部１０３に
おいて量子化される。ＬＳＰパラメータの方がＬＰＣ係
数よりも量子化された際の性能劣化が少ないことから、
通常このようにＬＳＰパラメータに変換されてから量子
化されることが多い。ＬＳＰパラメータの量子化の手法
としては、ベクトル量子化などがよく用いられる。

【０００６】一方、逆フィルタ部１０４において、求め
られたＬＰＣ係数Ｄ１０１を用いて入力信号Ｄ１００を
フィルタリングし、入力信号Ｄ１００からＬＰＣ残差信
号Ｄ１０４を抽出する。なお逆フィルタに用いる係数と
して、量子化されたＬＳＰパラメータからＬＰＣ係数に
逆変換したものを用いることも多い。

【０００７】このようにして求められたＬＰＣ残差信号
Ｄ１０４は、スペクトル変換部１０５においてスペクト
ル係数Ｄ１０５に変換され、スペクトル量子化部１０６
において量子化が施される。スペクトル係数の量子化に
は、ベクトル量子化による手法や、聴覚心理モデルに基
づいた量子化とハフマン符号化等を組み合わせた手法が
よく用いられる。

【０００８】このようにして求められた、量子化ＬＳＰ
パラメータＤ１０３、量子化スペクトルＤ１０６及びそ
の他の付加情報等は、ビット合成部１０７に送られ、規
定のデータフォーマットに従って符号化ビットストリー
ムＤ１０７が生成され、出力部１０８に出力される。

【０００９】また、図１０に示した音声符号化装置の構
成に加えて、ＬＰＣ残差信号を用いてピッチ抽出を行
い、ピッチ成分をＬＰＣ残差スペクトルから抽出するこ
とで、さらにスペクトル残差を平坦化する手法や、有声
音・無声音を判定して、有声音のスペクトル残差信号か
らハーモニックを抽出し、そのハーモニックを量子化す
る手法等も研究されている。

【００１０】図１０のようなＬＰＣ分析を用いた音声符
号化装置よって生成された符号化音声データの記録形式
の一例を図１１に示す。図１１に示すように、量子化さ
れたＬＳＰ情報が符号化データ中に保持されている。こ
の量子化ＬＳＰ情報は、ＬＰＣ係数に容易に変換可能で
あり、ＬＰＣ係数はスペクトルの包絡情報を示すもので
あるため、量子化されたスペクトル包絡情報が保持され
ていると考えることもできる。

【００１１】一方、音声信号の話者を識別する技術も盛
んに研究がされている。以下、説明する。

【００１２】先ず、話者認識には、話者識別と話者照合
がある。話者識別とは、入力された音声が予め登録され
た話者うちのどの話者であるかを判定するものであり、
話者照合とは、入力された音声を予め登録された話者の
データと比較して本人であるか否かを判定するものであ
る。また、話者認識には、認識時に発声する言葉（キー
ワード）が予め決められた発声内容依存型と、任意の言
葉を発声して認識をする発声内容独立型がある。

【００１３】一般的な音声認識技術としては、例えば次
のような技術がよく用いられる。先ず、ある話者の音声
信号の個人性を表す特徴量を抽出して、予め学習データ
として記録しておく。識別・照合の際には、入力された
話者音声を分析して、その個人性を表す特徴量を抽出し
て、学習データとの類似度を評価することで、話者の識
別・照合を行う。ここで、音声の個人性を表す特徴量と
しては、ケプストラム（Cepstrum）等がよく用いられ
る。ケプストラムは、対数スペクトルをフーリエ逆変換
したもので、その低次の項の係数によって音声スペクト
ルの包絡を表現できる。或いは、音声信号にＬＰＣ分析
を施してＬＰＣ係数を求め、そのＬＰＣ係数を変換する
ことで得られるＬＰＣケプストラム係数を用いることが
多い。これらのケプストラム若しくはＬＰＣケプストラ
ム係数の時系列の多項式展開係数をデルタケプストラム
と呼び、これも音声スペクトルの時間的変化を表現する
特徴量としてよく用いられる。この他、ピッチやデルタ
ピッチ（ピッチの多項式展開係数）等も用いられること
がある。

【００１４】このようにして抽出されたＬＰＣ（Linear
Predictive Coding）ケプストラム等の特徴量を標準パ
ターンとして学習データを作成するが、その方法として
は、ベクトル量子化歪みによる方法と隠れマルコフモデ
ル（HMM:Hidden Markov Model）による方法が代表的で
ある。

【００１５】ベクトル量子化歪みによる方法では、予め
話者ごとの特徴量をグループ化してその重心を符号帳
（コードブック）の要素（コードベクトル）として蓄え
ておく。そして、入力された音声の特徴量を各話者のコ
ードブックでベクトル量子化して、その入力音声全体に
対する各コードブックの平均量子化歪みを求める。

【００１６】そして話者識別の場合は、その平均量子化
歪みの最も小さいコードブックの話者を選択し、話者照
合の場合は、該当する話者のコードブックによる平均量
子化歪みを閾値と比較して本人かどうかを判定する。

【００１７】一方、ＨＭＭによる方法では、上記と同様
にして求めた話者の特徴量は、隠れマルコフモデル（Ｈ
ＭＭ）の状態間の遷移確率と、各状態での特徴量の出現
確率によって表現され、入力音声区間全体でモデルとの
平均尤度によって判定をする。

【００１８】また、予め登録されていない不特定話者が
含まれる話者識別の場合は、上述した話者識別と話者照
合とを組合せた方法によって判定する。すなわち、登録
された話者セットから最も類似した話者を候補として選
び、その候補の量子化歪み又は尤度を閾値と比較して本
人かどうかを判定する。

【００１９】話者照合又は不特定話者を含む話者識別に
おいて、本人の判定をするために、話者の尤度若しくは
量子化歪みを閾値と比較して判定するが、その際、これ
らの値は特徴量の時期変動、発声文章の違い、雑音等の
影響により、同一の話者であっても入力データと学習デ
ータ（モデル）とのばらつきが大きく、一般的にその絶
対値に閾値を設定しても安定して十分な認識率が得られ
ない。

【００２０】そこで、ＨＭＭにおける話者認識において
は、尤度を正規化することが一般的に行われる。例え
ば、以下の式（１）に示すような対数尤度比ＬＲを判定
に用いる方法がある。

【００２１】

【数１】

【００２２】式（１）において、Ｌ（Ｘ／Ｓ_ｃ）は、照
合対象話者Ｓ_ｃ（本人）の入力音声Ｘに対する尤度であ
り、Ｌ（Ｘ／Ｓ_ｒ）は、話者Ｓ_ｃ以外の話者Ｓ_ｒの入力
音声Ｘに対する尤度である。すなわち、入力音声Ｘに対
する尤度に合わせて動的に閾値を設定することになり、
発声内容の違いや時期変動に対して頑健となる。

【００２３】或いはまた、事後確率の概念を用いて、以
下の式（２）に示すような事後確立によって判定を行う
方法も研究されている。ここで、Ｐ（Ｓ_ｃ）、Ｐ
（Ｓ_ｒ）はそれぞれ話者Ｓ_ｃ、Ｓ_ｒの出現確率である。
また、Σは、全話者についての総和を表す。

【００２４】

【数２】

【００２５】これらのＨＭＭを用いた尤度の正規化の方
法は、後述する文献[4]等に詳しく記されている。

【００２６】上述した他にも、従来の話者認識の技術に
おいて、音声信号の全てのブロックを認識に用いるので
はなく、例えば、入力された音声信号の有声音（母音）
部分と無声音（子音）部分とを検出し、有声音（母音）
部分のみを用いて認識を行う方法や、有声音（母音）と
無声音（子音）とを区別して、別々の学習モデル若しく
はコードブックを用いて認識を行う方法等も研究されて
いる。

【００２７】以上説明した話者認識に関する従来技術に
ついて詳しくは、例えば、以下の文献等に記述されてい
る。 [1] 古井：”ケプストラムの統計的特徴による話者認
識”, 信学論 volJ65-A, No.2 183-190(1982) [2] F.K.Soong and A.E.Rosenberg: “On the Use of I
nstantaneous and Transitional Spectral Information
in Speaker Recognition.”, IEEE Trans. ASSP, Vol.
36, No.6, pp.871-879 (1988) [3] 古井：”声の個人性の話”,日本音響学会誌, 51,1
1, pp.876-881, (1995) [4] 松井：”HMMによる話者認識”, 信学技報, Vol.95,
No.467, (SP95 109-116) pp.17-24 (1996) [5] THE DIGITAL SIGNAL PROCESSING HANDBOOK, IEEE P
RESS (CRC Press),1998 [6] F.K.Soong , A.E.Rosenberg , L.R.Rabiner and B.
H.Juang: “A vector Quantization approach to speak
er recognition.”,Proc.IEEE, Int.Conf.on Acoust. S
peech & Signal Processing, pp.387-390(1985)

【００２８】

【発明が解決しようとする課題】ところで、従来の話者
検出及び検索における識別処理は、音声信号をディジタ
ル化し、そのディジタル音声波形を分析することによっ
て行われている。しかし、近年では音声高能率符号化技
術の普及と進歩により、多くの音声データは、圧縮符号
化された形式として保存及び利用されている。このよう
な音声データに対して音声の特徴による話者の識別や検
索を行うためには、検索対象となる符号化された音声デ
ータを全て音声波形に復号し、さらに、その特徴量の分
析を行い、識別処理や検索処理を行う必要がある。この
ような復号、分析、識別等の処理を対象となる音声デー
タ全てに対して行う必要があるため、多くの演算量と処
理時間が必要となり、また、復号された音声データを記
憶できるだけの記憶領域が必要となる。また、音声波形
への復号と再分析処理を行う影響で、認識性能が劣化す
ることもある。

【００２９】本発明は、このような従来の実情に鑑みて
提案されたものであり、圧縮符号化された音声データに
対して少ない演算量と記憶容量で効率的に話者の識別処
理や話者検索を行うことのできる情報検出装置及びその
方法、並びに情報検索装置及びその方法を提供すること
を目的とする。

【００３０】

【課題を解決するための手段】上述した目的を達成する
ために、本発明に係る情報検出装置は、スペクトル分析
を用いた音声符号化方式によって符号化された符号化音
声データから所定の情報を検出する情報検出装置におい
て、上記符号化音声データからスペクトル情報を復元す
るスペクトル情報復号手段と、復元された上記スペクト
ル情報に基づいて話者を識別する話者識別手段とを備え
ることを特徴としている。

【００３１】ここで、上記スペクトル分析がスペクトル
包絡の分析であり、上記スペクトル情報がスペクトル包
絡情報であってもよい。

【００３２】また、上記スペクトル包絡の分析がＬＰＣ
（線形予測）分析であり、上記スペクトル包絡情報がＬ
ＰＣ情報又はＬＰＣ情報に変換可能なＬＰＣ関連情報で
あってもよい。

【００３３】このような情報検出装置は、スペクトル分
析を用いて符号化された符号化音声データを対象として
話者の識別を行う場合に、上記符号化音声データを音声
波形に復号する処理と復号された音声波形を分析する処
理を行わず、上記符号化音声データからスペクトル情報
のみを復号し、そのスペクトル情報によって話者の識別
処理を行う。

【００３４】また、上述した目的を達成するために、本
発明に係る情報検出方法は、スペクトル分析を用いた音
声符号化方式によって符号化された符号化音声データか
ら所定の情報を検出する情報検出方法において、上記符
号化音声データからスペクトル情報を復元するスペクト
ル情報復号工程と、復元された上記スペクトル情報に基
づいて話者を識別する話者識別工程とを有することを特
徴としている。

【００３５】ここで、上記スペクトル分析がスペクトル
包絡の分析であり、上記スペクトル情報がスペクトル包
絡情報であってもよい。

【００３６】また、上記スペクトル包絡の分析がＬＰＣ
（線形予測）分析であり、上記スペクトル包絡情報がＬ
ＰＣ情報又はＬＰＣ情報に変換可能なＬＰＣ関連情報で
あってもよい。

【００３７】このような情報検出方法では、スペクトル
分析を用いて符号化された符号化音声データを対象とし
て話者の識別を行う場合に、上記符号化音声データを音
声波形に復号する処理と復号された音声波形を分析する
処理が行われず、上記符号化音声データからスペクトル
情報のみを復号し、そのスペクトル情報によって話者の
識別処理が行われる。

【００３８】また、上述した目的を達成するために、本
発明に係る情報検索装置は、スペクトル分析を用いた音
声符号化方式によって符号化された符号化音声データか
ら所望の情報を検索する情報検索装置において、上記符
号化音声データからスペクトル情報を復元するスペクト
ル情報復号手段と、復元された上記スペクトル情報に基
づいて話者を識別する話者識別手段と、識別された話者
情報と検索条件とを比較して所望の話者を検索する条件
比較手段と、検索結果に応じて、上記所望の話者の会話
部分を含む符号化音声データの情報と当該会話部分の情
報とを少なくとも出力する検索結果出力手段とを備える
ことを特徴としている。

【００３９】ここで、上記スペクトル分析がスペクトル
包絡の分析であり、上記スペクトル情報がスペクトル包
絡情報であってもよい。

【００４０】また、上記スペクトル包絡の分析がＬＰＣ
（線形予測）分析であり、上記スペクトル包絡情報がＬ
ＰＣ情報又はＬＰＣ情報に変換可能なＬＰＣ関連情報で
あってもよい。

【００４１】このような情報検索装置は、スペクトル分
析を用いて符号化された符号化音声データを対象として
話者の識別を行う場合に、上記符号化音声データを音声
波形に復号する処理と復号された音声波形を分析する処
理を行わず、上記符号化音声データからスペクトル情報
のみを復号し、そのスペクトル情報によって話者の識別
処理を行い、識別された話者情報と検索条件とを比較す
ることで、所望の話者の検索を行う。

【００４２】また、上述した目的を達成するために、本
発明に係る情報検索方法は、スペクトル分析を用いた音
声符号化方式によって符号化された符号化音声データか
ら所望の情報を検索する情報検索方法において、上記符
号化音声データからスペクトル情報を復元するスペクト
ル情報復号工程と、復元された上記スペクトル情報に基
づいて話者を識別する話者識別工程と、識別された話者
情報と検索条件とを比較して所望の話者を検索する条件
比較工程と、検索結果に応じて、上記所望の話者の会話
部分を含む符号化音声データの情報と当該会話部分の情
報とを少なくとも出力する検索結果出力工程とを有する
ことを特徴としている。

【００４３】ここで、上記スペクトル分析がスペクトル
包絡の分析であり、上記スペクトル情報がスペクトル包
絡情報であってもよい。

【００４４】また、上記スペクトル包絡の分析がＬＰＣ
（線形予測）分析であり、上記スペクトル包絡情報がＬ
ＰＣ情報又はＬＰＣ情報に変換可能なＬＰＣ関連情報で
あってもよい。

【００４５】このような情報検索方法では、スペクトル
分析を用いて符号化された符号化音声データを対象とし
て話者の識別を行う場合に、上記符号化音声データを音
声波形に復号する処理と復号された音声波形を分析する
処理が行われず、上記符号化音声データからスペクトル
情報のみを復号し、そのスペクトル情報によって話者の
識別処理が行われ、識別された話者情報と検索条件とを
比較することで、所望の話者の検索が行われる。

【００４６】

【発明の実施の形態】以下、本発明を適用した具体的な
実施の形態について、図面を参照しながら詳細に説明す
る。この実施の形態は、本発明を、スペクトル分析を用
いた音声符号化方式によって符号化された符号化音声デ
ータからスペクトル情報のみを抽出し、そのスペクトル
情報に基づいて、符号化音声データにおける話者を識別
し、話者情報を検出する情報検出装置及びその話者情報
と検索条件とを比較することで所望の話者を検索する情
報検索装置に適用したものである。なお、以下では、ス
ペクトル分析の手法として、特にスペクトル包絡情報を
分析し、さらに、スペクトル包絡情報の分析手法とし
て、特にＬＰＣ（Linear Predictive Coding）分析を用
いた例について説明する。

【００４７】先ず、本実施の形態における情報検出装置
の概念構成図を図１に示す。図１に示すように、情報検
出装置においては、情報源となるＬＰＣ関連情報を有す
る符号化音声データがＬＰＣ復号手段１に入力され、Ｌ
ＰＣ情報が抽出されて復号される。

【００４８】話者識別手段２は、ＬＰＣ復号手段１によ
って復号されたＬＰＣ情報を入力し、ＬＰＣ情報に基づ
いて音声データの話者を識別する。話者識別手段２は、
この識別結果を音声データの話者情報として出力する。

【００４９】また、本実施の形態における情報検索装置
の概念構成図を図２に示す。図２に示すように、情報検
索装置は、図１に示したＬＰＣ復号手段１及び話者識別
手段２に加えて、条件比較手段３を有する。この条件比
較手段３は、話者識別手段２から入力された音声データ
の話者情報と入力された検索条件とを比較して、所望の
話者の音声データ部分を検索し、その検索結果を出力す
る。

【００５０】この図２に示した情報検索装置の具体的な
構成例を図３に示す。この情報検索装置１０は、ＬＰＣ
分析により得られたＬＰＣ情報をＬＳＰ（Linear Spect
rumPair）情報に変換して量子化及び符号化された音声
データを処理対象として、話者の識別及び検索を行うも
のである。また、情報検索装置１０は、特に符号化され
た音声データから抽出されたＬＰＣ情報を変換して得ら
れるＬＰＣケプストラムを識別の特徴量として利用し、
識別の手法としてベクトル量子化を利用する。なお、Ｌ
ＰＣ情報に基づいた話者の識別手法が本実施例の手法に
限定されないのは、勿論である。

【００５１】図３に示すように、情報検索装置１０は、
符号化音声データを入力する入力部２０と、符号化音声
データを入力からブロック毎に読み込むデータ読み込み
部２１と、符号化音声データからＬＳＰ情報を抽出して
復号するＬＳＰ復号部２２と、ＬＳＰ情報をＬＰＣ情報
に変換するＬＰＣ変換部２３と、得られたＬＰＣ情報を
音声の特徴量であるＬＰＣケプストラム（Cepstrum）に
変換するケプストラム変換部２４と、ＬＰＣケプストラ
ムにベクトル量子化を施すベクトル量子化部２５と、ベ
クトル量子化の結果に基づいて話者を識別する話者識別
部２６と、識別された話者に関する情報を所定の形式で
出力する話者情報出力部２７と、話者情報が出力される
出力部２８とを有する情報検出部３０と、検索条件を入
力する検索条件入力部３１と、検索条件と話者情報とを
比較して検索する条件比較部３２と、検索結果を出力す
る検索結果出力部３３とを備える。なお、上述した情報
検出部３０は、図１に示した情報検出装置に相当する。

【００５２】データ読み込み部２１は、入力部２０から
所定のブロック毎に符号化データＤ２１を読み込み、Ｌ
ＳＰ復号部２２にブロック毎の符号化データＤ２２を供
給する。

【００５３】ＬＳＰ復号部２２は、データ読み込み部２
１から供給されたブロック毎の符号化データＤ２２から
ＬＳＰ情報のみを抽出して復号し、復号されたＬＳＰ情
報Ｄ２３をＬＰＣ変換部２３に供給する。

【００５４】ＬＰＣ変換部２３は、ＬＳＰ復号部２２か
ら供給されたＬＳＰ情報Ｄ２３をＬＰＣ情報Ｄ２４に変
換する。ＬＰＣ変換部２３は、ＬＰＣ情報Ｄ２４をケプ
ストラム変換部２４に供給する。

【００５５】ケプストラム変換部２４は、ＬＰＣ変換部
２３から供給されたＬＰＣ情報Ｄ２４を変換してＬＰＣ
ケプストラムＤ２５を求め、このＬＰＣケプストラムＤ
２５をベクトル量子化部２５に供給する。

【００５６】ベクトル量子化部２５は、ＬＰＣケプスト
ラムＤ２５に対して、登録された各話者のコードブック
を用いてそれぞれベクトル量子化を施す。また、ベクト
ル量子化部２５は、それぞれのコードブックでベクトル
量子化された結果（量子化歪み）Ｄ２６を話者識別部２
６に供給する。

【００５７】話者識別部２６は、ベクトル量子化歪みＤ
２６を評価して、所定の認識ブロック毎に話者の識別及
び照合判定を行う。この話者の識別及び照合判定につい
ては、後で詳述する。話者識別部２６は、識別された話
者番号Ｄ２７を話者情報出力部２７及び条件比較部３２
に供給する。

【００５８】話者情報出力部２７は、識別された話者番
号Ｄ２７に基づいて、その話者の情報を図示しないデー
タベースより検索し、所定の形式で話者情報Ｄ２８を出
力する。勿論、話者番号Ｄ２７を直接出力するようにし
ても構わない。

【００５９】検索条件入力部３１は、所望の話者の名前
や登録番号等の検索条件Ｄ３１を入力し、条件比較部３
２に供給する。

【００６０】条件比較部３２は、話者識別部２６から供
給された話者番号Ｄ２７と検索条件入力部３１から供給
された所望の話者の名前や登録番号等の検索条件Ｄ３１
とを比較し、話者番号Ｄ２７が検索条件Ｄ３１と一致し
た場合には、その話者の話者番号Ｄ３２を検索結果出力
部３３に供給する。

【００６１】検索結果出力部３３は、話者番号Ｄ３２に
基づいて、その話者の情報を図示しないデータベースよ
り検索し、検索された符号化音声データ名及びその符号
化音声データ中の所望の話者の位置等の情報と共に、所
定の形式で検索結果Ｄ３３を出力する。勿論、話者番
号、符号化音声データ名及びその符号化音声データ中の
所望の話者の位置のみであっても構わない。

【００６２】情報検索装置１０は、以上のような構成に
より、符号化された音声データを復号することなしに所
望の話者の会話部分を検索することができる。

【００６３】以下、上述した情報検索装置１０の動作を
図４のフローチャートを用いて説明する。先ずステップ
Ｓ１において、所望の話者の検索条件を入力し、ステッ
プＳ２において、検索対象となる単一若しくは複数の符
号化音声データから識別対象のデータを１つ選択する。

【００６４】次に、ステップＳ３において、ステップＳ
２で選択したデータの話者識別処理を行う。話者識別処
理についての詳細は、後述する。

【００６５】続いてステップＳ４において、ステップＳ
１で入力された検索条件とステップＳ３の話者識別処理
で得られた話者情報とを比較し、条件が一致するか否か
が判別される。ステップＳ４において条件が一致した場
合には、ステップＳ５に進み、条件が一致しなかった場
合には、ステップＳ６に進む。

【００６６】ステップＳ５では、識別された話者の番号
に基づいて、登録されたデータベースからその話者の情
報を検索し、検索結果として出力する。

【００６７】続くステップＳ６では、全データが終了し
たか否かが判定され、全データ終了していない場合に
は、ステップＳ７において次のデータに進み、ステップ
Ｓ３に戻る。ステップＳ６において、全データ終了して
いる場合には、検索処理を終了する。

【００６８】次に、上述したステップＳ３における話者
識別処理について説明するが、その前に、話者識別処理
における処理ブロックについて図５を用いて説明する。

【００６９】図５に示すＬＰＣブロックは、符号化音声
データからＬＰＣ情報を抽出し、後述するベクトル量子
化を施して量子化歪みを求める処理の単位である。ＬＰ
Ｃ分析ブロックのブロック長は、通常２０ミリ秒〜４０
ミリ秒程度がよく用いられる。また、分析解像度を向上
させるために隣接ブロックと若干オーバーラップさせる
ことが多い。

【００７０】話者認識ブロックは、Ｎ個のＬＰＣブロッ
クからなり、後述するようにベクトル量子化歪みを評価
して話者を識別する最小単位である。なお、話者認識ブ
ロックのブロック長が数秒程度になるように、上述した
Ｎの数を決定する。話者認識ブロックも、隣接区間と若
干オーバーラップしていてもよい。オーバーラップ長
は、通常、区間長の１０％〜５０％程度である。

【００７１】以下、本実施の形態における話者識別処理
について、図６のフローチャートを用いて説明する。な
お、以下の手法は一例であり、話者識別手法はこの例に
限定されるものではない。

【００７２】先ずステップＳ１０において、ＬＰＣブロ
ックの読み込み位置を処理対象データの先頭に位置づけ
る。なお、用途に応じて先頭以外の所定の位置に位置付
けるようにしても構わない。

【００７３】次にステップＳ１１において、ＬＰＣブロ
ック数のカウンタｎを０に初期化し、続くステップＳ１
２では、カウンタｎが話者認識ブロックに含まれるＬＰ
Ｃブロック数Ｎ未満であるか否かが判別される。ステッ
プＳ１２において、カウンタｎがＬＰＣブロック数Ｎ未
満であれば、ステップＳ１３に進み、そうでなければス
テップＳ１９に進む。

【００７４】ステップＳ１３では、処理対象データか
ら、ｎ番目のＬＰＣブロックのデータを読み込む。

【００７５】続いてステップＳ１４では、処理対象デー
タの末尾に到達しているか否かが判別され、データの末
尾に到達していれば処理を終了する。データの末尾に到
達していなければ、ステップＳ１５に進む。

【００７６】ステップＳ１５では、読み込んだＬＰＣブ
ロックのデータから、ＬＳＰ情報部分のみを取り出し、
量子化されたＬＳＰパラメータを復号し、その得られた
ＬＳＰパラメータをＬＰＣ係数に変換する。なお、本実
施の形態では、抽出するＬＰＣ関連情報（ＬＰＣ係数に
変換可能な情報）としてＬＳＰパラメータを用いている
が、これに限定されるものではなく、ＬＰＣ係数に変換
可能なものであれば、例えば、量子化されたＬＰＣ係数
を直接用いてもよく、また、ＰＡＲＣＯＲ係数（PARtia
l auto-CORrelation coefficient：偏自己相関関数）を
用いてもよい。

【００７７】ステップＳ１６では、ステップＳ１５で得
られたＬＰＣ係数をＬＰＣケプストラム係数に変換す
る。

【００７８】続くステップＳ１７では、予め作成された
複数のコードブックを用いて、ステップＳ１６で得られ
たＬＰＣケプストラム係数にベクトル量子化を施す。そ
れぞれのコードブックは、登録された話者に一対一に対
応する。ここで、コードブックＣＢ_ｋによるこのＬＰＣ
ブロックのＬＰＣケプストラム係数のベクトル量子化歪
みをｄ_ｋとする。なお、ｋは、コードブックの番号であ
る。

【００７９】ステップＳ１８では、カウンタｎに１を加
算して次のＬＰＣブロックに移り、ステップＳ１２に戻
る。

【００８０】ステップＳ１９では、話者認識ブロック内
におけるＮ個のＬＰＣブロックの平均ベクトル量子化歪
みＤ_ｋを求める。

【００８１】続いてステップＳ２０では、平均量子化歪
みＤ_ｋを最小にする話者Ｓ_ｋ’に対応するコードブック
ＣＢ_ｋ’を選出し、この話者Ｓ_ｋ’を話者候補Ｓ_ｃとす
る。このようにして、コードブックが登録されている話
者のうち、最も入力データの音声が類似している話者
が、その話者認識ブロックにおける話者候補Ｓ_ｃとして
選出される。

【００８２】次に、ステップＳ２１において、話者候補
Ｓ_ｃの照合判定を行う。すなわち、ステップＳ２０で識
別された話者候補Ｓ_ｃは、単に最小の量子化歪みを与え
るコードブックとして選択されたものであるので、未登
録の話者データであっても何れかのコードブックが選択
されてしまう。そこで、量子化歪みを評価して、選択さ
れた話者候補Ｓ_ｃが本人であるか否かの照合判定を行
う。なお、照合判定については、後で詳述する。照合判
定の結果、本人であると判定されれば話者候補Ｓ _ｃを識
別話者として確定し、棄却されれば未知話者として確定
する。

【００８３】ステップＳ２２では、識別された話者の情
報を図２に示した条件比較部３２に供給し、続くステッ
プＳ２３において、次の話者認識ブロックに移り、ステ
ップＳ１１に戻る。

【００８４】以上のようにして、話者識別ブロック毎に
話者が識別され、その識別された話者の情報を図２に示
した条件比較部３２に供給される。

【００８５】続いて、図６のステップＳ２１における話
者候補Ｓ_ｃの照合判定方法の詳細を図７に示す。先ずス
テップＳ３０において、話者候補Ｓ_ｃの平均量子化歪み
をＤ _０とする。次にステップＳ３１において、話者候補
Ｓ_ｃ以外の各コードブックによる平均量子化歪みを小さ
い順に並び替え、そのうち、小さいものから順にｎ個
を、Ｄ_１，Ｄ_２，・・・Ｄ_ｎ（Ｄ_０＜Ｄ_１＜Ｄ_２＜・・
・＜Ｄ_ｎ）とする。ｎの値は、任意に選択可能である。

【００８６】続いてステップＳ３２において、評価の尺
度として、話者候補Ｓ_ｃの量子化歪みＤ_０とそれ以外の
ｎ個の量子化歪みについて、以下の式（３）又は式
（４）を用いて歪差分量ΔＤを求める。

【００８７】

【数３】

【００８８】式（３）、式（４）において、例えばｎが
１の場合は、話者候補Ｓ_ｃに次いで量子化歪みが小さい
Ｄ_１とＤ_０との量子化歪みの差を求めることになる。

【００８９】続いてステップＳ３３において、図示しな
い記憶部から話者候補Ｓ_ｃに対応する閾値データを読み
こむ。

【００９０】この記憶部には、各登録話者ごとに、例え
ば図８のような形式で閾値データが記録されている。す
なわち、図８に示すように、各登録話者の話者識別名
と、閾値データである量子化歪みの最大歪み絶対値Ｄ
_ｍａｘ及び最小歪み差分ΔＤ_ｍｉ _ｎが予め記録されてい
る。

【００９１】図７に戻り、ステップＳ３４では、読みこ
んだ閾値データＤ_ｍａｘ，ΔＤ_ｍｉ _ｎを、求めたＤ_０及
びΔＤと比較して判別する。すなわち、ステップＳ３４
において、量子化歪みの絶対値Ｄ_０が閾値データＤ
_ｍａｘよりも小さく、且つ、歪み差分ΔＤが閾値データ
ΔＤ_ｍｉｎより大きければ、ステップＳ３５に進み、本
人であると判定し、候補を確定する。そうでなければ、
ステップＳ３６に進み、未知話者と判定し、候補を棄却
する。このように、話者候補Ｓ_ｃの平均量子化歪みＤ_０
と歪差分量ΔＤとをそれぞれ閾値と比較することで、登
録話者の音声データの識別誤りが減少し、また、登録話
者以外の音声データを未知話者として判定することが可
能となる。

【００９２】以上のような照合判定の結果、本人である
と判定され、識別話者として確定された話者の情報は、
上述したように図２に示した条件比較部３２に供給され
る。

【００９３】この条件比較部３２では、供給された話者
番号と検索条件入力部３１から供給された所望の話者の
名前や登録番号等の検索条件とを比較し、話者番号が検
索条件と一致した場合には、その話者の話者番号を検索
結果出力部３３に供給する。

【００９４】検索結果出力部３３は、話者番号に基づい
て、その話者の情報を、例えば図９に示すような形式で
情報が登録された図示しないデータベースより検索す
る。図９に示すように、話者の情報としては、例えば、
話者識別番号、話者コードブック番号、話者名、性別，
年齢等のその他の情報が挙げられる。

【００９５】検索結果出力部３３は、検索された符号化
音声データ名及びその符号化音声データ中の所望の話者
の位置等の情報と共に、当該話者の情報を出力する。

【００９６】以上のように、本実施の形態における情報
検出装置及び情報検索装置によれば、符号化された音声
データを音声波形に復号せずにＬＰＣ関連情報のみをと
りだすことにより、符号化データの復号処理と、復号さ
れた音声波形のＬＰＣ分析処理を省略することができ
る。従って、識別処理に必要な演算量と記憶領域を大幅
に低減することができ、また、復号と再分析の影響によ
る認識率の悪化を低減することができる。

【００９７】なお、本発明は上述した実施の形態のみに
限定されるものではなく、本発明の要旨を逸脱しない範
囲において種々の変更が可能であることは勿論である。

【００９８】例えば、上述の説明では、ＬＰＣ分析によ
って求めたＬＰＣケプストラムを特徴量として、話者を
識別する手法を例に挙げたが、話者の識別手法が上述の
例に限定されるものではない。すなわち、ＬＰＣケプス
トラム係数は、スペクトルの包絡情報を効果的に表現す
るものであるが、スペクトルの包絡を表現する他の特徴
量を用いてもよい。

【００９９】また、スペクトルの包絡情報を直接用いて
識別することも可能である。例えば、周波数軸上のＮ個
の点でスペクトルの包絡Ｓ１，Ｓ２，…，Ｓｎが与えら
れていたとする。このとき、識別のための特徴量ベクト
ルｘをｘ＝［Ｓ１，Ｓ２，…，Ｓｎ］として、ＬＰＣケ
プストラムを用いた例と全く同様にして、この特徴量ベ
クトルをベクトル量子化し、そのベクトル量子化歪みを
評価することで話者を識別することが可能である。

【０１００】さらに、スペクトル情報そのものが与えら
れれば、ＬＰＣ分析やケプストラム分析等を用いてスペ
クトル包絡を抽出することは容易であるため、この場合
も同様に話者の識別を行うことが可能である。

【０１０１】また、スペクトル包絡情報以外を用いた話
者認識の手法として、音声のスペクトルを直接分析し、
そのスペクトル係数、基本周波数、ピッチ、平均パワ
ー、高域成分、長時間平均スペクトル等の情報を用いて
識別する手法もある。

【０１０２】例えば、ピッチや平均パワー、或いは幾つ
かのスペクトル係数等を特徴量ベクトルとして用い、上
述の例と同様にベクトル量子化を用いる手法等により話
者を識別することも可能である。

【０１０３】このように、本発明は、ＬＰＣ情報を有す
る音声符号化データのみならず、スペクトル包絡情報や
スペクトル情報そのものを有する音声符号化データにつ
いても適用可能である。

【０１０４】

【発明の効果】以上詳細に説明したように本発明に係る
情報検出装置は、スペクトル分析を用いた音声符号化方
式によって符号化された符号化音声データから所定の情
報を検出する情報検出装置において、上記符号化音声デ
ータからスペクトル情報を復元するスペクトル情報復号
手段と、復元された上記スペクトル情報に基づいて話者
を識別する話者識別手段とを備えることを特徴としてい
る。

【０１０５】ここで、上記スペクトル分析がスペクトル
包絡の分析であり、上記スペクトル情報がスペクトル包
絡情報であってもよい。

【０１０６】また、上記スペクトル包絡の分析がＬＰＣ
（線形予測）分析であり、上記スペクトル包絡情報がＬ
ＰＣ情報又はＬＰＣ情報に変換可能なＬＰＣ関連情報で
あってもよい。

【０１０７】このような情報検出装置は、スペクトル分
析を用いて符号化された符号化音声データを対象として
話者の識別を行う場合に、上記符号化音声データを音声
波形に復号する処理と復号された音声波形を分析する処
理を行わず、上記符号化音声データからスペクトル情報
のみを復号し、そのスペクトル情報によって話者の識別
処理を行う。

【０１０８】これにより、識別処理に必要な演算量と記
憶容量とを大幅に削減することができ、また、復号と再
分析の影響による認識性能の劣化を低減することができ
る。

【０１０９】また、上述した目的を達成するために、本
発明に係る情報検出方法は、スペクトル分析を用いた音
声符号化方式によって符号化された符号化音声データか
ら所定の情報を検出する情報検出方法において、上記符
号化音声データからスペクトル情報を復元するスペクト
ル情報復号工程と、復元された上記スペクトル情報に基
づいて話者を識別する話者識別工程とを有することを特
徴としている。

【０１１０】ここで、上記スペクトル分析がスペクトル
包絡の分析であり、上記スペクトル情報がスペクトル包
絡情報であってもよい。

【０１１１】また、上記スペクトル包絡の分析がＬＰＣ
（線形予測）分析であり、上記スペクトル包絡情報がＬ
ＰＣ情報又はＬＰＣ情報に変換可能なＬＰＣ関連情報で
あってもよい。

【０１１２】このような情報検出方法では、スペクトル
分析を用いて符号化された符号化音声データを対象とし
て話者の識別を行う場合に、上記符号化音声データを音
声波形に復号する処理と復号された音声波形を分析する
処理が行われず、上記符号化音声データからスペクトル
情報のみを復号し、そのスペクトル情報によって話者の
識別処理が行われる。

【０１１３】これにより、識別処理に必要な演算量と記
憶容量とを大幅に削減することができ、また、復号と再
分析の影響による認識性能の劣化を低減することができ
る。

【０１１４】また、上述した目的を達成するために、本
発明に係る情報検索装置は、スペクトル分析を用いた音
声符号化方式によって符号化された符号化音声データか
ら所望の情報を検索する情報検索装置において、上記符
号化音声データからスペクトル情報を復元するスペクト
ル情報復号手段と、復元された上記スペクトル情報に基
づいて話者を識別する話者識別手段と、識別された話者
情報と検索条件とを比較して所望の話者を検索する条件
比較手段と、検索結果に応じて、上記所望の話者の会話
部分を含む符号化音声データの情報と当該会話部分の情
報とを少なくとも出力する検索結果出力手段とを備える
ことを特徴としている。

【０１１５】ここで、上記スペクトル分析がスペクトル
包絡の分析であり、上記スペクトル情報がスペクトル包
絡情報であってもよい。

【０１１６】また、上記スペクトル包絡の分析がＬＰＣ
（線形予測）分析であり、上記スペクトル包絡情報がＬ
ＰＣ情報又はＬＰＣ情報に変換可能なＬＰＣ関連情報で
あってもよい。

【０１１７】このような情報検索装置は、スペクトル分
析を用いて符号化された符号化音声データを対象として
話者の識別を行う場合に、上記符号化音声データを音声
波形に復号する処理と復号された音声波形を分析する処
理を行わず、上記符号化音声データからスペクトル情報
のみを復号し、そのスペクトル情報によって話者の識別
処理を行い、識別された話者情報と検索条件とを比較す
ることで、所望の話者の検索を行う。

【０１１８】これにより、識別処理に必要な演算量と記
憶容量とを大幅に削減することができ、また、復号と再
分析の影響による認識性能の劣化を低減し、所望の話者
を適切に検索することができる。

【０１１９】また、上述した目的を達成するために、本
発明に係る情報検索方法は、スペクトル分析を用いた音
声符号化方式によって符号化された符号化音声データか
ら所望の情報を検索する情報検索方法において、上記符
号化音声データからスペクトル情報を復元するスペクト
ル情報復号工程と、復元された上記スペクトル情報に基
づいて話者を識別する話者識別工程と、識別された話者
情報と検索条件とを比較して所望の話者を検索する条件
比較工程と、検索結果に応じて、上記所望の話者の会話
部分を含む符号化音声データの情報と当該会話部分の情
報とを少なくとも出力する検索結果出力工程とを有する
ことを特徴としている。

【０１２０】ここで、上記スペクトル分析がスペクトル
包絡の分析であり、上記スペクトル情報がスペクトル包
絡情報であってもよい。

【０１２１】また、上記スペクトル包絡の分析がＬＰＣ
（線形予測）分析であり、上記スペクトル包絡情報がＬ
ＰＣ情報又はＬＰＣ情報に変換可能なＬＰＣ関連情報で
あってもよい。

【０１２２】このような情報検索方法では、スペクトル
分析を用いて符号化された符号化音声データを対象とし
て話者の識別を行う場合に、上記符号化音声データを音
声波形に復号する処理と復号された音声波形を分析する
処理が行われず、上記符号化音声データからスペクトル
情報のみを復号し、そのスペクトル情報によって話者の
識別処理が行われ、識別された話者情報と検索条件とを
比較することで、所望の話者の検索が行われる。

【０１２３】これにより、識別処理に必要な演算量と記
憶容量とを大幅に削減することができ、また、復号と再
分析の影響による認識性能の劣化を低減し、所望の話者
を適切に検索することができる。

【図面の簡単な説明】

【図１】本実施の形態における情報検出装置の概念構成
を説明する図である。

【図２】本実施の形態における情報検索装置の概念構成
を説明する図である。

【図３】同情報検出装置及び同情報検索装置の構成を説
明する図である。

【図４】同情報検索装置の一連の処理を説明するフロー
チャートである。

【図５】同情報検索装置における話者認識ブロック及び
ＬＰＣ分析ブロックの関係を説明する図である。

【図６】同情報検索装置における話者識別処理を説明す
るフローチャートである。

【図７】同情報検索装置における話者照合判定処理を説
明するフローチャートである。

【図８】同情報検索装置における話者照合判定用の閾値
データの記録形式の一例を説明する図である。

【図９】同情報検索装置における話者情報データベース
の一例を説明する図である。

【図１０】ＬＰＣ分析を用いた一般的な音声符号化装置
の構成を説明する図である。

【図１１】同音声符号化装置における符号化音声データ
の記録形式の一例を説明する図である。

【符号の説明】

１ＬＰＣ復号手段、２話者識別手段、３条件比較
手段、１０情報検索装置、２０入力部、２１デー
タ読み込み部、２２ＬＳＰ復号部、２３ＬＰＣ変換
部、２４ケプストラム変換部、２５ベクトル量子化
部、２６話者識別部、２７話者情報出力部、２８
出力部、３０情報検出部、３１検索条件入力部、３
２条件比較部、３３検索結果出力部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 9/14 ＪＦターム(参考） 5D015 AA02 CC03 HH02 5D045 CB01 DA02 5J064 AA02 BB03 BC14 BC27 BD01

Claims

【特許請求の範囲】

【請求項１】スペクトル分析を用いた音声符号化方式
によって符号化された符号化音声データから所定の情報
を検出する情報検出装置において、上記符号化音声データからスペクトル情報を復元するス
ペクトル情報復号手段と、復元された上記スペクトル情報に基づいて話者を識別す
る話者識別手段とを備えることを特徴とする情報検出装
置。
【請求項２】上記話者識別手段は、時間軸情報に復元
する前のスペクトル情報に基づいて話者を識別すること
を特徴とする請求項１記載の情報検出装置。
【請求項３】上記話者識別手段は、上記スペクトル情
報の類似性によって所定の評価区間毎に話者を識別する
ことを特徴とする請求項２記載の情報検出装置。
【請求項４】上記スペクトル分析は、スペクトル包絡
の分析であり、上記スペクトル情報は、スペクトル包絡
情報であることを特徴とする請求項１記載の情報検出装
置。
【請求項５】上記スペクトル包絡の分析は、ＬＰＣ
（線形予測）分析であり、上記スペクトル包絡情報は、
ＬＰＣ情報又はＬＰＣ情報に変換可能なＬＰＣ関連情報
であることを特徴とする請求項４記載の情報検出装置。
【請求項６】上記ＬＰＣ関連情報は、ＬＳＰ（線スペ
クトル対）情報であり、上記スペクトル情報復号手段は、上記符号化音声データ
に含まれる上記ＬＳＰ情報に基づいて上記ＬＰＣ情報を
復元することを特徴とする請求項５記載の情報検出装
置。
【請求項７】スペクトル分析を用いた音声符号化方式
によって符号化された符号化音声データから所定の情報
を検出する情報検出方法において、上記符号化音声データからスペクトル情報を復元するス
ペクトル情報復号工程と、復元された上記スペクトル情報に基づいて話者を識別す
る話者識別工程とを有することを特徴とする情報検出方
法。
【請求項８】上記話者識別工程では、時間軸情報に復
元する前のスペクトル情報に基づいて話者が識別される
ことを特徴とする請求項７記載の情報検出方法。
【請求項９】上記話者識別工程では、上記スペクトル
情報の類似性によって所定の評価区間毎に話者が識別さ
れることを特徴とする請求項８記載の情報検出方法。
【請求項１０】上記スペクトル分析は、スペクトル包
絡の分析であり、上記スペクトル情報は、スペクトル包
絡情報であることを特徴とする請求項７記載の情報検出
方法。
【請求項１１】上記スペクトル包絡の分析は、ＬＰＣ
（線形予測）分析であり、上記スペクトル包絡情報は、
ＬＰＣ情報又はＬＰＣ情報に変換可能なＬＰＣ関連情報
であることを特徴とする請求項１０記載の情報検出方
法。
【請求項１２】上記ＬＰＣ関連情報は、ＬＳＰ（線ス
ペクトル対）情報であり、上記スペクトル情報復号工程では、上記符号化音声デー
タに含まれる上記ＬＳＰ情報に基づいて上記ＬＰＣ情報
が復元されることを特徴とする請求項１１記載の情報検
出方法。
【請求項１３】スペクトル分析を用いた音声符号化方
式によって符号化された符号化音声データから所望の情
報を検索する情報検索装置において、上記符号化音声データからスペクトル情報を復元するス
ペクトル情報復号手段と、復元された上記スペクトル情報に基づいて話者を識別す
る話者識別手段と、識別された話者情報と検索条件とを比較して所望の話者
を検索する条件比較手段と、検索結果に応じて、上記所望の話者の会話部分を含む符
号化音声データの情報と当該会話部分の情報とを少なく
とも出力する検索結果出力手段とを備えることを特徴と
する情報検索装置。
【請求項１４】上記話者識別手段は、時間軸情報に復
元する前のスペクトル情報に基づいて話者を識別するこ
とを特徴とする請求項１３記載の情報検索装置。
【請求項１５】上記話者識別手段は、上記スペクトル
情報の類似性によって所定の評価区間毎に話者を識別す
ることを特徴とする請求項１４記載の情報検索装置。
【請求項１６】上記スペクトル分析は、スペクトル包
絡の分析であり、上記スペクトル情報は、スペクトル包
絡情報であることを特徴とする請求項１３記載の情報検
索装置。
【請求項１７】上記スペクトル包絡の分析は、ＬＰＣ
（線形予測）分析であり、上記スペクトル包絡情報は、
ＬＰＣ情報又はＬＰＣ情報に変換可能なＬＰＣ関連情報
であることを特徴とする請求項１６記載の情報検索装
置。
【請求項１８】上記ＬＰＣ関連情報は、ＬＳＰ（線ス
ペクトル対）情報であり、上記スペクトル情報復号手段は、上記符号化音声データ
に含まれる上記ＬＳＰ情報に基づいて上記ＬＰＣ情報を
復元することを特徴とする請求項１７記載の情報検索装
置。
【請求項１９】スペクトル分析を用いた音声符号化方
式によって符号化された符号化音声データから所望の情
報を検索する情報検索方法において、上記符号化音声データからスペクトル情報を復元するス
ペクトル情報復号工程と、復元された上記スペクトル情報に基づいて話者を識別す
る話者識別工程と、識別された話者情報と検索条件とを比較して所望の話者
を検索する条件比較工程と、検索結果に応じて、上記所望の話者の会話部分を含む符
号化音声データの情報と当該会話部分の情報とを少なく
とも出力する検索結果出力工程とを有することを特徴と
する情報検索方法。
【請求項２０】上記話者識別工程では、時間軸情報に
復元する前のスペクトル情報に基づいて話者が識別され
ることを特徴とする請求項１９記載の情報検索方法。
【請求項２１】上記話者識別工程では、上記スペクト
ル情報の類似性によって所定の評価区間毎に話者が識別
されることを特徴とする請求項２０記載の情報検索方
法。
【請求項２２】上記スペクトル分析は、スペクトル包
絡の分析であり、上記スペクトル情報は、スペクトル包
絡情報であることを特徴とする請求項１９記載の情報検
索方法。
【請求項２３】上記スペクトル包絡の分析は、ＬＰＣ
（線形予測）分析であり、上記スペクトル包絡情報は、
ＬＰＣ情報又はＬＰＣ情報に変換可能なＬＰＣ関連情報
であることを特徴とする請求項２２記載の情報検索方
法。
【請求項２４】上記ＬＰＣ関連情報は、ＬＳＰ（線ス
ペクトル対）情報であり、上記スペクトル情報復号工程では、上記符号化音声デー
タに含まれる上記ＬＳＰ情報に基づいて上記ＬＰＣ情報
が復元されることを特徴とする請求項２３記載の情報検
索方法。