[go: up one dir, main page]

JP2003036097A - 情報検出装置及び方法、並びに情報検索装置及び方法 - Google Patents

情報検出装置及び方法、並びに情報検索装置及び方法

Info

Publication number
JP2003036097A
JP2003036097A JP2001225051A JP2001225051A JP2003036097A JP 2003036097 A JP2003036097 A JP 2003036097A JP 2001225051 A JP2001225051 A JP 2001225051A JP 2001225051 A JP2001225051 A JP 2001225051A JP 2003036097 A JP2003036097 A JP 2003036097A
Authority
JP
Japan
Prior art keywords
information
speaker
spectrum
lpc
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2001225051A
Other languages
English (en)
Inventor
Yasuhiro Tokuri
康裕 戸栗
Masayuki Nishiguchi
正之 西口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2001225051A priority Critical patent/JP2003036097A/ja
Priority to US10/201,069 priority patent/US7315819B2/en
Publication of JP2003036097A publication Critical patent/JP2003036097A/ja
Abandoned legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 符号化音声データにおける話者の識別処理と
検索処理とを少ない演算量及び記憶容量で効率的に行
う。 【解決手段】 情報検索装置30において、LSP復号
部22は、ブロック毎に読み込まれた符号化音声データ
からLSP情報のみを抽出して復号する。LPC変換部
23は、LSP情報をLPC情報に変換し、ケプストラ
ム変換部24は、得られたLPC情報を音声の特徴量で
あるLPCケプストラムに変換する。ベクトル量子化部
25は、LPCケプストラムにベクトル量子化を施し、
話者識別部26は、ベクトル量子化の結果に基づいて話
者を識別する。また、識別された話者と検索条件とが条
件比較部32で比較され、その結果に基づいて、検索結
果が出力される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報検出装置及び
方法、並びに情報検索装置及び方法に関するものであ
り、特に、音声データ又は音声画像データの話者識別と
話者検索を行うための情報検出装置及び方法、並びに情
報検索装置及び方法に関するものである。
【0002】
【従来の技術】近年では、音声信号をディジタル化し、
そのディジタル音声信号を符号化して保存又は利用する
ことが多い。この音声の符号化方法は、大別して波形符
号化と分析合成符号化、そしてそれらを混在したハイブ
リッド符号化に分けることができる。
【0003】ここで、波形符号化は、音声波形をできる
だけ忠実に再現できるように符号化するものであり、分
析合成符号化は、音声の生成モデルに基づいて信号をパ
ラメータで表現して符号化するものである。特に分析合
成符号化としては、線形予測(Linear Predictive Codi
ng:LPC)分析を用いた分析合成系が研究されている。例
えば、ハーモニック符号化や、合成による分析(A-b-S:
Analysis-by-Synthesis)法を用いたマルチパス駆動線
形予測符号化(MPC)や最適ベクトルのクローズドル
ープサーチによる符号励起線形予測(CELP)符号化
等がある。
【0004】一般的に、LPC分析を用いた符号化方式
では、線形予測分析(LPC分析)によりスペクトルの
包絡情報を抽出し、LPC情報をPARCOR係数(偏
自己相関関数:PARtial auto-CORrelation coefficien
t)やLSP(Linear Spectrum Pair)係数等に変換し
て符号化する。また、ブロック毎に有声音か無声音かを
判定して、有声音にはハーモニック符号化を適用し、無
声音にはCELP符号化を適用する方式や、さらには、
LPC分析による分析合成符号化とそのLPC残差信号
に波形符号化を用いて符号化するハイブリッド方式も研
究されている。
【0005】図10に、LPC分析を用いた一般的な音
声符号化装置の概略構成を示す。図10において、入力
部100から入力された音声信号D100は、LPC分
析部101でLPC分析が施されてLPC係数D101
が求められる。LPC係数D101は、LSP変換部1
02においてLSPパラメータD102に変換される。
LSPパラメータD102は、LSP量子化部103に
おいて量子化される。LSPパラメータの方がLPC係
数よりも量子化された際の性能劣化が少ないことから、
通常このようにLSPパラメータに変換されてから量子
化されることが多い。LSPパラメータの量子化の手法
としては、ベクトル量子化などがよく用いられる。
【0006】一方、逆フィルタ部104において、求め
られたLPC係数D101を用いて入力信号D100を
フィルタリングし、入力信号D100からLPC残差信
号D104を抽出する。なお逆フィルタに用いる係数と
して、量子化されたLSPパラメータからLPC係数に
逆変換したものを用いることも多い。
【0007】このようにして求められたLPC残差信号
D104は、スペクトル変換部105においてスペクト
ル係数D105に変換され、スペクトル量子化部106
において量子化が施される。スペクトル係数の量子化に
は、ベクトル量子化による手法や、聴覚心理モデルに基
づいた量子化とハフマン符号化等を組み合わせた手法が
よく用いられる。
【0008】このようにして求められた、量子化LSP
パラメータD103、量子化スペクトルD106及びそ
の他の付加情報等は、ビット合成部107に送られ、規
定のデータフォーマットに従って符号化ビットストリー
ムD107が生成され、出力部108に出力される。
【0009】また、図10に示した音声符号化装置の構
成に加えて、LPC残差信号を用いてピッチ抽出を行
い、ピッチ成分をLPC残差スペクトルから抽出するこ
とで、さらにスペクトル残差を平坦化する手法や、有声
音・無声音を判定して、有声音のスペクトル残差信号か
らハーモニックを抽出し、そのハーモニックを量子化す
る手法等も研究されている。
【0010】図10のようなLPC分析を用いた音声符
号化装置よって生成された符号化音声データの記録形式
の一例を図11に示す。図11に示すように、量子化さ
れたLSP情報が符号化データ中に保持されている。こ
の量子化LSP情報は、LPC係数に容易に変換可能で
あり、LPC係数はスペクトルの包絡情報を示すもので
あるため、量子化されたスペクトル包絡情報が保持され
ていると考えることもできる。
【0011】一方、音声信号の話者を識別する技術も盛
んに研究がされている。以下、説明する。
【0012】先ず、話者認識には、話者識別と話者照合
がある。話者識別とは、入力された音声が予め登録され
た話者うちのどの話者であるかを判定するものであり、
話者照合とは、入力された音声を予め登録された話者の
データと比較して本人であるか否かを判定するものであ
る。また、話者認識には、認識時に発声する言葉(キー
ワード)が予め決められた発声内容依存型と、任意の言
葉を発声して認識をする発声内容独立型がある。
【0013】一般的な音声認識技術としては、例えば次
のような技術がよく用いられる。先ず、ある話者の音声
信号の個人性を表す特徴量を抽出して、予め学習データ
として記録しておく。識別・照合の際には、入力された
話者音声を分析して、その個人性を表す特徴量を抽出し
て、学習データとの類似度を評価することで、話者の識
別・照合を行う。ここで、音声の個人性を表す特徴量と
しては、ケプストラム(Cepstrum)等がよく用いられ
る。ケプストラムは、対数スペクトルをフーリエ逆変換
したもので、その低次の項の係数によって音声スペクト
ルの包絡を表現できる。或いは、音声信号にLPC分析
を施してLPC係数を求め、そのLPC係数を変換する
ことで得られるLPCケプストラム係数を用いることが
多い。これらのケプストラム若しくはLPCケプストラ
ム係数の時系列の多項式展開係数をデルタケプストラム
と呼び、これも音声スペクトルの時間的変化を表現する
特徴量としてよく用いられる。この他、ピッチやデルタ
ピッチ(ピッチの多項式展開係数)等も用いられること
がある。
【0014】このようにして抽出されたLPC(Linear
Predictive Coding)ケプストラム等の特徴量を標準パ
ターンとして学習データを作成するが、その方法として
は、ベクトル量子化歪みによる方法と隠れマルコフモデ
ル(HMM:Hidden Markov Model)による方法が代表的で
ある。
【0015】ベクトル量子化歪みによる方法では、予め
話者ごとの特徴量をグループ化してその重心を符号帳
(コードブック)の要素(コードベクトル)として蓄え
ておく。そして、入力された音声の特徴量を各話者のコ
ードブックでベクトル量子化して、その入力音声全体に
対する各コードブックの平均量子化歪みを求める。
【0016】そして話者識別の場合は、その平均量子化
歪みの最も小さいコードブックの話者を選択し、話者照
合の場合は、該当する話者のコードブックによる平均量
子化歪みを閾値と比較して本人かどうかを判定する。
【0017】一方、HMMによる方法では、上記と同様
にして求めた話者の特徴量は、隠れマルコフモデル(H
MM)の状態間の遷移確率と、各状態での特徴量の出現
確率によって表現され、入力音声区間全体でモデルとの
平均尤度によって判定をする。
【0018】また、予め登録されていない不特定話者が
含まれる話者識別の場合は、上述した話者識別と話者照
合とを組合せた方法によって判定する。すなわち、登録
された話者セットから最も類似した話者を候補として選
び、その候補の量子化歪み又は尤度を閾値と比較して本
人かどうかを判定する。
【0019】話者照合又は不特定話者を含む話者識別に
おいて、本人の判定をするために、話者の尤度若しくは
量子化歪みを閾値と比較して判定するが、その際、これ
らの値は特徴量の時期変動、発声文章の違い、雑音等の
影響により、同一の話者であっても入力データと学習デ
ータ(モデル)とのばらつきが大きく、一般的にその絶
対値に閾値を設定しても安定して十分な認識率が得られ
ない。
【0020】そこで、HMMにおける話者認識において
は、尤度を正規化することが一般的に行われる。例え
ば、以下の式(1)に示すような対数尤度比LRを判定
に用いる方法がある。
【0021】
【数1】
【0022】式(1)において、L(X/S)は、照
合対象話者S(本人)の入力音声Xに対する尤度であ
り、L(X/S)は、話者S以外の話者Sの入力
音声Xに対する尤度である。すなわち、入力音声Xに対
する尤度に合わせて動的に閾値を設定することになり、
発声内容の違いや時期変動に対して頑健となる。
【0023】或いはまた、事後確率の概念を用いて、以
下の式(2)に示すような事後確立によって判定を行う
方法も研究されている。ここで、P(S)、P
(S)はそれぞれ話者S、Sの出現確率である。
また、Σは、全話者についての総和を表す。
【0024】
【数2】
【0025】これらのHMMを用いた尤度の正規化の方
法は、後述する文献[4]等に詳しく記されている。
【0026】上述した他にも、従来の話者認識の技術に
おいて、音声信号の全てのブロックを認識に用いるので
はなく、例えば、入力された音声信号の有声音(母音)
部分と無声音(子音)部分とを検出し、有声音(母音)
部分のみを用いて認識を行う方法や、有声音(母音)と
無声音(子音)とを区別して、別々の学習モデル若しく
はコードブックを用いて認識を行う方法等も研究されて
いる。
【0027】以上説明した話者認識に関する従来技術に
ついて詳しくは、例えば、以下の文献等に記述されてい
る。 [1] 古井:”ケプストラムの統計的特徴による話者認
識”, 信学論 volJ65-A, No.2 183-190(1982) [2] F.K.Soong and A.E.Rosenberg: “On the Use of I
nstantaneous and Transitional Spectral Information
in Speaker Recognition.”, IEEE Trans. ASSP, Vol.
36, No.6, pp.871-879 (1988) [3] 古井:”声の個人性の話”,日本音響学会誌, 51,1
1, pp.876-881, (1995) [4] 松井:”HMMによる話者認識”, 信学技報, Vol.95,
No.467, (SP95 109-116) pp.17-24 (1996) [5] THE DIGITAL SIGNAL PROCESSING HANDBOOK, IEEE P
RESS (CRC Press),1998 [6] F.K.Soong , A.E.Rosenberg , L.R.Rabiner and B.
H.Juang: “A vector Quantization approach to speak
er recognition.”,Proc.IEEE, Int.Conf.on Acoust. S
peech & Signal Processing, pp.387-390(1985)
【0028】
【発明が解決しようとする課題】ところで、従来の話者
検出及び検索における識別処理は、音声信号をディジタ
ル化し、そのディジタル音声波形を分析することによっ
て行われている。しかし、近年では音声高能率符号化技
術の普及と進歩により、多くの音声データは、圧縮符号
化された形式として保存及び利用されている。このよう
な音声データに対して音声の特徴による話者の識別や検
索を行うためには、検索対象となる符号化された音声デ
ータを全て音声波形に復号し、さらに、その特徴量の分
析を行い、識別処理や検索処理を行う必要がある。この
ような復号、分析、識別等の処理を対象となる音声デー
タ全てに対して行う必要があるため、多くの演算量と処
理時間が必要となり、また、復号された音声データを記
憶できるだけの記憶領域が必要となる。また、音声波形
への復号と再分析処理を行う影響で、認識性能が劣化す
ることもある。
【0029】本発明は、このような従来の実情に鑑みて
提案されたものであり、圧縮符号化された音声データに
対して少ない演算量と記憶容量で効率的に話者の識別処
理や話者検索を行うことのできる情報検出装置及びその
方法、並びに情報検索装置及びその方法を提供すること
を目的とする。
【0030】
【課題を解決するための手段】上述した目的を達成する
ために、本発明に係る情報検出装置は、スペクトル分析
を用いた音声符号化方式によって符号化された符号化音
声データから所定の情報を検出する情報検出装置におい
て、上記符号化音声データからスペクトル情報を復元す
るスペクトル情報復号手段と、復元された上記スペクト
ル情報に基づいて話者を識別する話者識別手段とを備え
ることを特徴としている。
【0031】ここで、上記スペクトル分析がスペクトル
包絡の分析であり、上記スペクトル情報がスペクトル包
絡情報であってもよい。
【0032】また、上記スペクトル包絡の分析がLPC
(線形予測)分析であり、上記スペクトル包絡情報がL
PC情報又はLPC情報に変換可能なLPC関連情報で
あってもよい。
【0033】このような情報検出装置は、スペクトル分
析を用いて符号化された符号化音声データを対象として
話者の識別を行う場合に、上記符号化音声データを音声
波形に復号する処理と復号された音声波形を分析する処
理を行わず、上記符号化音声データからスペクトル情報
のみを復号し、そのスペクトル情報によって話者の識別
処理を行う。
【0034】また、上述した目的を達成するために、本
発明に係る情報検出方法は、スペクトル分析を用いた音
声符号化方式によって符号化された符号化音声データか
ら所定の情報を検出する情報検出方法において、上記符
号化音声データからスペクトル情報を復元するスペクト
ル情報復号工程と、復元された上記スペクトル情報に基
づいて話者を識別する話者識別工程とを有することを特
徴としている。
【0035】ここで、上記スペクトル分析がスペクトル
包絡の分析であり、上記スペクトル情報がスペクトル包
絡情報であってもよい。
【0036】また、上記スペクトル包絡の分析がLPC
(線形予測)分析であり、上記スペクトル包絡情報がL
PC情報又はLPC情報に変換可能なLPC関連情報で
あってもよい。
【0037】このような情報検出方法では、スペクトル
分析を用いて符号化された符号化音声データを対象とし
て話者の識別を行う場合に、上記符号化音声データを音
声波形に復号する処理と復号された音声波形を分析する
処理が行われず、上記符号化音声データからスペクトル
情報のみを復号し、そのスペクトル情報によって話者の
識別処理が行われる。
【0038】また、上述した目的を達成するために、本
発明に係る情報検索装置は、スペクトル分析を用いた音
声符号化方式によって符号化された符号化音声データか
ら所望の情報を検索する情報検索装置において、上記符
号化音声データからスペクトル情報を復元するスペクト
ル情報復号手段と、復元された上記スペクトル情報に基
づいて話者を識別する話者識別手段と、識別された話者
情報と検索条件とを比較して所望の話者を検索する条件
比較手段と、検索結果に応じて、上記所望の話者の会話
部分を含む符号化音声データの情報と当該会話部分の情
報とを少なくとも出力する検索結果出力手段とを備える
ことを特徴としている。
【0039】ここで、上記スペクトル分析がスペクトル
包絡の分析であり、上記スペクトル情報がスペクトル包
絡情報であってもよい。
【0040】また、上記スペクトル包絡の分析がLPC
(線形予測)分析であり、上記スペクトル包絡情報がL
PC情報又はLPC情報に変換可能なLPC関連情報で
あってもよい。
【0041】このような情報検索装置は、スペクトル分
析を用いて符号化された符号化音声データを対象として
話者の識別を行う場合に、上記符号化音声データを音声
波形に復号する処理と復号された音声波形を分析する処
理を行わず、上記符号化音声データからスペクトル情報
のみを復号し、そのスペクトル情報によって話者の識別
処理を行い、識別された話者情報と検索条件とを比較す
ることで、所望の話者の検索を行う。
【0042】また、上述した目的を達成するために、本
発明に係る情報検索方法は、スペクトル分析を用いた音
声符号化方式によって符号化された符号化音声データか
ら所望の情報を検索する情報検索方法において、上記符
号化音声データからスペクトル情報を復元するスペクト
ル情報復号工程と、復元された上記スペクトル情報に基
づいて話者を識別する話者識別工程と、識別された話者
情報と検索条件とを比較して所望の話者を検索する条件
比較工程と、検索結果に応じて、上記所望の話者の会話
部分を含む符号化音声データの情報と当該会話部分の情
報とを少なくとも出力する検索結果出力工程とを有する
ことを特徴としている。
【0043】ここで、上記スペクトル分析がスペクトル
包絡の分析であり、上記スペクトル情報がスペクトル包
絡情報であってもよい。
【0044】また、上記スペクトル包絡の分析がLPC
(線形予測)分析であり、上記スペクトル包絡情報がL
PC情報又はLPC情報に変換可能なLPC関連情報で
あってもよい。
【0045】このような情報検索方法では、スペクトル
分析を用いて符号化された符号化音声データを対象とし
て話者の識別を行う場合に、上記符号化音声データを音
声波形に復号する処理と復号された音声波形を分析する
処理が行われず、上記符号化音声データからスペクトル
情報のみを復号し、そのスペクトル情報によって話者の
識別処理が行われ、識別された話者情報と検索条件とを
比較することで、所望の話者の検索が行われる。
【0046】
【発明の実施の形態】以下、本発明を適用した具体的な
実施の形態について、図面を参照しながら詳細に説明す
る。この実施の形態は、本発明を、スペクトル分析を用
いた音声符号化方式によって符号化された符号化音声デ
ータからスペクトル情報のみを抽出し、そのスペクトル
情報に基づいて、符号化音声データにおける話者を識別
し、話者情報を検出する情報検出装置及びその話者情報
と検索条件とを比較することで所望の話者を検索する情
報検索装置に適用したものである。なお、以下では、ス
ペクトル分析の手法として、特にスペクトル包絡情報を
分析し、さらに、スペクトル包絡情報の分析手法とし
て、特にLPC(Linear Predictive Coding)分析を用
いた例について説明する。
【0047】先ず、本実施の形態における情報検出装置
の概念構成図を図1に示す。図1に示すように、情報検
出装置においては、情報源となるLPC関連情報を有す
る符号化音声データがLPC復号手段1に入力され、L
PC情報が抽出されて復号される。
【0048】話者識別手段2は、LPC復号手段1によ
って復号されたLPC情報を入力し、LPC情報に基づ
いて音声データの話者を識別する。話者識別手段2は、
この識別結果を音声データの話者情報として出力する。
【0049】また、本実施の形態における情報検索装置
の概念構成図を図2に示す。図2に示すように、情報検
索装置は、図1に示したLPC復号手段1及び話者識別
手段2に加えて、条件比較手段3を有する。この条件比
較手段3は、話者識別手段2から入力された音声データ
の話者情報と入力された検索条件とを比較して、所望の
話者の音声データ部分を検索し、その検索結果を出力す
る。
【0050】この図2に示した情報検索装置の具体的な
構成例を図3に示す。この情報検索装置10は、LPC
分析により得られたLPC情報をLSP(Linear Spect
rumPair)情報に変換して量子化及び符号化された音声
データを処理対象として、話者の識別及び検索を行うも
のである。また、情報検索装置10は、特に符号化され
た音声データから抽出されたLPC情報を変換して得ら
れるLPCケプストラムを識別の特徴量として利用し、
識別の手法としてベクトル量子化を利用する。なお、L
PC情報に基づいた話者の識別手法が本実施例の手法に
限定されないのは、勿論である。
【0051】図3に示すように、情報検索装置10は、
符号化音声データを入力する入力部20と、符号化音声
データを入力からブロック毎に読み込むデータ読み込み
部21と、符号化音声データからLSP情報を抽出して
復号するLSP復号部22と、LSP情報をLPC情報
に変換するLPC変換部23と、得られたLPC情報を
音声の特徴量であるLPCケプストラム(Cepstrum)に
変換するケプストラム変換部24と、LPCケプストラ
ムにベクトル量子化を施すベクトル量子化部25と、ベ
クトル量子化の結果に基づいて話者を識別する話者識別
部26と、識別された話者に関する情報を所定の形式で
出力する話者情報出力部27と、話者情報が出力される
出力部28とを有する情報検出部30と、検索条件を入
力する検索条件入力部31と、検索条件と話者情報とを
比較して検索する条件比較部32と、検索結果を出力す
る検索結果出力部33とを備える。なお、上述した情報
検出部30は、図1に示した情報検出装置に相当する。
【0052】データ読み込み部21は、入力部20から
所定のブロック毎に符号化データD21を読み込み、L
SP復号部22にブロック毎の符号化データD22を供
給する。
【0053】LSP復号部22は、データ読み込み部2
1から供給されたブロック毎の符号化データD22から
LSP情報のみを抽出して復号し、復号されたLSP情
報D23をLPC変換部23に供給する。
【0054】LPC変換部23は、LSP復号部22か
ら供給されたLSP情報D23をLPC情報D24に変
換する。LPC変換部23は、LPC情報D24をケプ
ストラム変換部24に供給する。
【0055】ケプストラム変換部24は、LPC変換部
23から供給されたLPC情報D24を変換してLPC
ケプストラムD25を求め、このLPCケプストラムD
25をベクトル量子化部25に供給する。
【0056】ベクトル量子化部25は、LPCケプスト
ラムD25に対して、登録された各話者のコードブック
を用いてそれぞれベクトル量子化を施す。また、ベクト
ル量子化部25は、それぞれのコードブックでベクトル
量子化された結果(量子化歪み)D26を話者識別部2
6に供給する。
【0057】話者識別部26は、ベクトル量子化歪みD
26を評価して、所定の認識ブロック毎に話者の識別及
び照合判定を行う。この話者の識別及び照合判定につい
ては、後で詳述する。話者識別部26は、識別された話
者番号D27を話者情報出力部27及び条件比較部32
に供給する。
【0058】話者情報出力部27は、識別された話者番
号D27に基づいて、その話者の情報を図示しないデー
タベースより検索し、所定の形式で話者情報D28を出
力する。勿論、話者番号D27を直接出力するようにし
ても構わない。
【0059】検索条件入力部31は、所望の話者の名前
や登録番号等の検索条件D31を入力し、条件比較部3
2に供給する。
【0060】条件比較部32は、話者識別部26から供
給された話者番号D27と検索条件入力部31から供給
された所望の話者の名前や登録番号等の検索条件D31
とを比較し、話者番号D27が検索条件D31と一致し
た場合には、その話者の話者番号D32を検索結果出力
部33に供給する。
【0061】検索結果出力部33は、話者番号D32に
基づいて、その話者の情報を図示しないデータベースよ
り検索し、検索された符号化音声データ名及びその符号
化音声データ中の所望の話者の位置等の情報と共に、所
定の形式で検索結果D33を出力する。勿論、話者番
号、符号化音声データ名及びその符号化音声データ中の
所望の話者の位置のみであっても構わない。
【0062】情報検索装置10は、以上のような構成に
より、符号化された音声データを復号することなしに所
望の話者の会話部分を検索することができる。
【0063】以下、上述した情報検索装置10の動作を
図4のフローチャートを用いて説明する。先ずステップ
S1において、所望の話者の検索条件を入力し、ステッ
プS2において、検索対象となる単一若しくは複数の符
号化音声データから識別対象のデータを1つ選択する。
【0064】次に、ステップS3において、ステップS
2で選択したデータの話者識別処理を行う。話者識別処
理についての詳細は、後述する。
【0065】続いてステップS4において、ステップS
1で入力された検索条件とステップS3の話者識別処理
で得られた話者情報とを比較し、条件が一致するか否か
が判別される。ステップS4において条件が一致した場
合には、ステップS5に進み、条件が一致しなかった場
合には、ステップS6に進む。
【0066】ステップS5では、識別された話者の番号
に基づいて、登録されたデータベースからその話者の情
報を検索し、検索結果として出力する。
【0067】続くステップS6では、全データが終了し
たか否かが判定され、全データ終了していない場合に
は、ステップS7において次のデータに進み、ステップ
S3に戻る。ステップS6において、全データ終了して
いる場合には、検索処理を終了する。
【0068】次に、上述したステップS3における話者
識別処理について説明するが、その前に、話者識別処理
における処理ブロックについて図5を用いて説明する。
【0069】図5に示すLPCブロックは、符号化音声
データからLPC情報を抽出し、後述するベクトル量子
化を施して量子化歪みを求める処理の単位である。LP
C分析ブロックのブロック長は、通常20ミリ秒〜40
ミリ秒程度がよく用いられる。また、分析解像度を向上
させるために隣接ブロックと若干オーバーラップさせる
ことが多い。
【0070】話者認識ブロックは、N個のLPCブロッ
クからなり、後述するようにベクトル量子化歪みを評価
して話者を識別する最小単位である。なお、話者認識ブ
ロックのブロック長が数秒程度になるように、上述した
Nの数を決定する。話者認識ブロックも、隣接区間と若
干オーバーラップしていてもよい。オーバーラップ長
は、通常、区間長の10%〜50%程度である。
【0071】以下、本実施の形態における話者識別処理
について、図6のフローチャートを用いて説明する。な
お、以下の手法は一例であり、話者識別手法はこの例に
限定されるものではない。
【0072】先ずステップS10において、LPCブロ
ックの読み込み位置を処理対象データの先頭に位置づけ
る。なお、用途に応じて先頭以外の所定の位置に位置付
けるようにしても構わない。
【0073】次にステップS11において、LPCブロ
ック数のカウンタnを0に初期化し、続くステップS1
2では、カウンタnが話者認識ブロックに含まれるLP
Cブロック数N未満であるか否かが判別される。ステッ
プS12において、カウンタnがLPCブロック数N未
満であれば、ステップS13に進み、そうでなければス
テップS19に進む。
【0074】ステップS13では、処理対象データか
ら、n番目のLPCブロックのデータを読み込む。
【0075】続いてステップS14では、処理対象デー
タの末尾に到達しているか否かが判別され、データの末
尾に到達していれば処理を終了する。データの末尾に到
達していなければ、ステップS15に進む。
【0076】ステップS15では、読み込んだLPCブ
ロックのデータから、LSP情報部分のみを取り出し、
量子化されたLSPパラメータを復号し、その得られた
LSPパラメータをLPC係数に変換する。なお、本実
施の形態では、抽出するLPC関連情報(LPC係数に
変換可能な情報)としてLSPパラメータを用いている
が、これに限定されるものではなく、LPC係数に変換
可能なものであれば、例えば、量子化されたLPC係数
を直接用いてもよく、また、PARCOR係数(PARtia
l auto-CORrelation coefficient:偏自己相関関数)を
用いてもよい。
【0077】ステップS16では、ステップS15で得
られたLPC係数をLPCケプストラム係数に変換す
る。
【0078】続くステップS17では、予め作成された
複数のコードブックを用いて、ステップS16で得られ
たLPCケプストラム係数にベクトル量子化を施す。そ
れぞれのコードブックは、登録された話者に一対一に対
応する。ここで、コードブックCBによるこのLPC
ブロックのLPCケプストラム係数のベクトル量子化歪
みをdとする。なお、kは、コードブックの番号であ
る。
【0079】ステップS18では、カウンタnに1を加
算して次のLPCブロックに移り、ステップS12に戻
る。
【0080】ステップS19では、話者認識ブロック内
におけるN個のLPCブロックの平均ベクトル量子化歪
みDを求める。
【0081】続いてステップS20では、平均量子化歪
みDを最小にする話者Sk’に対応するコードブック
CBk’を選出し、この話者Sk’を話者候補Sとす
る。このようにして、コードブックが登録されている話
者のうち、最も入力データの音声が類似している話者
が、その話者認識ブロックにおける話者候補Sとして
選出される。
【0082】次に、ステップS21において、話者候補
の照合判定を行う。すなわち、ステップS20で識
別された話者候補Sは、単に最小の量子化歪みを与え
るコードブックとして選択されたものであるので、未登
録の話者データであっても何れかのコードブックが選択
されてしまう。そこで、量子化歪みを評価して、選択さ
れた話者候補Sが本人であるか否かの照合判定を行
う。なお、照合判定については、後で詳述する。照合判
定の結果、本人であると判定されれば話者候補S を識
別話者として確定し、棄却されれば未知話者として確定
する。
【0083】ステップS22では、識別された話者の情
報を図2に示した条件比較部32に供給し、続くステッ
プS23において、次の話者認識ブロックに移り、ステ
ップS11に戻る。
【0084】以上のようにして、話者識別ブロック毎に
話者が識別され、その識別された話者の情報を図2に示
した条件比較部32に供給される。
【0085】続いて、図6のステップS21における話
者候補Sの照合判定方法の詳細を図7に示す。先ずス
テップS30において、話者候補Sの平均量子化歪み
をD とする。次にステップS31において、話者候補
以外の各コードブックによる平均量子化歪みを小さ
い順に並び替え、そのうち、小さいものから順にn個
を、D,D,・・・D(D<D<D<・・
・<D)とする。nの値は、任意に選択可能である。
【0086】続いてステップS32において、評価の尺
度として、話者候補Sの量子化歪みDとそれ以外の
n個の量子化歪みについて、以下の式(3)又は式
(4)を用いて歪差分量ΔDを求める。
【0087】
【数3】
【0088】式(3)、式(4)において、例えばnが
1の場合は、話者候補Sに次いで量子化歪みが小さい
とDとの量子化歪みの差を求めることになる。
【0089】続いてステップS33において、図示しな
い記憶部から話者候補Sに対応する閾値データを読み
こむ。
【0090】この記憶部には、各登録話者ごとに、例え
ば図8のような形式で閾値データが記録されている。す
なわち、図8に示すように、各登録話者の話者識別名
と、閾値データである量子化歪みの最大歪み絶対値D
max及び最小歪み差分ΔDmi が予め記録されてい
る。
【0091】図7に戻り、ステップS34では、読みこ
んだ閾値データDmax,ΔDmi を、求めたD
びΔDと比較して判別する。すなわち、ステップS34
において、量子化歪みの絶対値Dが閾値データD
maxよりも小さく、且つ、歪み差分ΔDが閾値データ
ΔDminより大きければ、ステップS35に進み、本
人であると判定し、候補を確定する。そうでなければ、
ステップS36に進み、未知話者と判定し、候補を棄却
する。このように、話者候補Sの平均量子化歪みD
と歪差分量ΔDとをそれぞれ閾値と比較することで、登
録話者の音声データの識別誤りが減少し、また、登録話
者以外の音声データを未知話者として判定することが可
能となる。
【0092】以上のような照合判定の結果、本人である
と判定され、識別話者として確定された話者の情報は、
上述したように図2に示した条件比較部32に供給され
る。
【0093】この条件比較部32では、供給された話者
番号と検索条件入力部31から供給された所望の話者の
名前や登録番号等の検索条件とを比較し、話者番号が検
索条件と一致した場合には、その話者の話者番号を検索
結果出力部33に供給する。
【0094】検索結果出力部33は、話者番号に基づい
て、その話者の情報を、例えば図9に示すような形式で
情報が登録された図示しないデータベースより検索す
る。図9に示すように、話者の情報としては、例えば、
話者識別番号、話者コードブック番号、話者名、性別,
年齢等のその他の情報が挙げられる。
【0095】検索結果出力部33は、検索された符号化
音声データ名及びその符号化音声データ中の所望の話者
の位置等の情報と共に、当該話者の情報を出力する。
【0096】以上のように、本実施の形態における情報
検出装置及び情報検索装置によれば、符号化された音声
データを音声波形に復号せずにLPC関連情報のみをと
りだすことにより、符号化データの復号処理と、復号さ
れた音声波形のLPC分析処理を省略することができ
る。従って、識別処理に必要な演算量と記憶領域を大幅
に低減することができ、また、復号と再分析の影響によ
る認識率の悪化を低減することができる。
【0097】なお、本発明は上述した実施の形態のみに
限定されるものではなく、本発明の要旨を逸脱しない範
囲において種々の変更が可能であることは勿論である。
【0098】例えば、上述の説明では、LPC分析によ
って求めたLPCケプストラムを特徴量として、話者を
識別する手法を例に挙げたが、話者の識別手法が上述の
例に限定されるものではない。すなわち、LPCケプス
トラム係数は、スペクトルの包絡情報を効果的に表現す
るものであるが、スペクトルの包絡を表現する他の特徴
量を用いてもよい。
【0099】また、スペクトルの包絡情報を直接用いて
識別することも可能である。例えば、周波数軸上のN個
の点でスペクトルの包絡S1,S2,…,Snが与えら
れていたとする。このとき、識別のための特徴量ベクト
ルxをx=[S1,S2,…,Sn]として、LPCケ
プストラムを用いた例と全く同様にして、この特徴量ベ
クトルをベクトル量子化し、そのベクトル量子化歪みを
評価することで話者を識別することが可能である。
【0100】さらに、スペクトル情報そのものが与えら
れれば、LPC分析やケプストラム分析等を用いてスペ
クトル包絡を抽出することは容易であるため、この場合
も同様に話者の識別を行うことが可能である。
【0101】また、スペクトル包絡情報以外を用いた話
者認識の手法として、音声のスペクトルを直接分析し、
そのスペクトル係数、基本周波数、ピッチ、平均パワ
ー、高域成分、長時間平均スペクトル等の情報を用いて
識別する手法もある。
【0102】例えば、ピッチや平均パワー、或いは幾つ
かのスペクトル係数等を特徴量ベクトルとして用い、上
述の例と同様にベクトル量子化を用いる手法等により話
者を識別することも可能である。
【0103】このように、本発明は、LPC情報を有す
る音声符号化データのみならず、スペクトル包絡情報や
スペクトル情報そのものを有する音声符号化データにつ
いても適用可能である。
【0104】
【発明の効果】以上詳細に説明したように本発明に係る
情報検出装置は、スペクトル分析を用いた音声符号化方
式によって符号化された符号化音声データから所定の情
報を検出する情報検出装置において、上記符号化音声デ
ータからスペクトル情報を復元するスペクトル情報復号
手段と、復元された上記スペクトル情報に基づいて話者
を識別する話者識別手段とを備えることを特徴としてい
る。
【0105】ここで、上記スペクトル分析がスペクトル
包絡の分析であり、上記スペクトル情報がスペクトル包
絡情報であってもよい。
【0106】また、上記スペクトル包絡の分析がLPC
(線形予測)分析であり、上記スペクトル包絡情報がL
PC情報又はLPC情報に変換可能なLPC関連情報で
あってもよい。
【0107】このような情報検出装置は、スペクトル分
析を用いて符号化された符号化音声データを対象として
話者の識別を行う場合に、上記符号化音声データを音声
波形に復号する処理と復号された音声波形を分析する処
理を行わず、上記符号化音声データからスペクトル情報
のみを復号し、そのスペクトル情報によって話者の識別
処理を行う。
【0108】これにより、識別処理に必要な演算量と記
憶容量とを大幅に削減することができ、また、復号と再
分析の影響による認識性能の劣化を低減することができ
る。
【0109】また、上述した目的を達成するために、本
発明に係る情報検出方法は、スペクトル分析を用いた音
声符号化方式によって符号化された符号化音声データか
ら所定の情報を検出する情報検出方法において、上記符
号化音声データからスペクトル情報を復元するスペクト
ル情報復号工程と、復元された上記スペクトル情報に基
づいて話者を識別する話者識別工程とを有することを特
徴としている。
【0110】ここで、上記スペクトル分析がスペクトル
包絡の分析であり、上記スペクトル情報がスペクトル包
絡情報であってもよい。
【0111】また、上記スペクトル包絡の分析がLPC
(線形予測)分析であり、上記スペクトル包絡情報がL
PC情報又はLPC情報に変換可能なLPC関連情報で
あってもよい。
【0112】このような情報検出方法では、スペクトル
分析を用いて符号化された符号化音声データを対象とし
て話者の識別を行う場合に、上記符号化音声データを音
声波形に復号する処理と復号された音声波形を分析する
処理が行われず、上記符号化音声データからスペクトル
情報のみを復号し、そのスペクトル情報によって話者の
識別処理が行われる。
【0113】これにより、識別処理に必要な演算量と記
憶容量とを大幅に削減することができ、また、復号と再
分析の影響による認識性能の劣化を低減することができ
る。
【0114】また、上述した目的を達成するために、本
発明に係る情報検索装置は、スペクトル分析を用いた音
声符号化方式によって符号化された符号化音声データか
ら所望の情報を検索する情報検索装置において、上記符
号化音声データからスペクトル情報を復元するスペクト
ル情報復号手段と、復元された上記スペクトル情報に基
づいて話者を識別する話者識別手段と、識別された話者
情報と検索条件とを比較して所望の話者を検索する条件
比較手段と、検索結果に応じて、上記所望の話者の会話
部分を含む符号化音声データの情報と当該会話部分の情
報とを少なくとも出力する検索結果出力手段とを備える
ことを特徴としている。
【0115】ここで、上記スペクトル分析がスペクトル
包絡の分析であり、上記スペクトル情報がスペクトル包
絡情報であってもよい。
【0116】また、上記スペクトル包絡の分析がLPC
(線形予測)分析であり、上記スペクトル包絡情報がL
PC情報又はLPC情報に変換可能なLPC関連情報で
あってもよい。
【0117】このような情報検索装置は、スペクトル分
析を用いて符号化された符号化音声データを対象として
話者の識別を行う場合に、上記符号化音声データを音声
波形に復号する処理と復号された音声波形を分析する処
理を行わず、上記符号化音声データからスペクトル情報
のみを復号し、そのスペクトル情報によって話者の識別
処理を行い、識別された話者情報と検索条件とを比較す
ることで、所望の話者の検索を行う。
【0118】これにより、識別処理に必要な演算量と記
憶容量とを大幅に削減することができ、また、復号と再
分析の影響による認識性能の劣化を低減し、所望の話者
を適切に検索することができる。
【0119】また、上述した目的を達成するために、本
発明に係る情報検索方法は、スペクトル分析を用いた音
声符号化方式によって符号化された符号化音声データか
ら所望の情報を検索する情報検索方法において、上記符
号化音声データからスペクトル情報を復元するスペクト
ル情報復号工程と、復元された上記スペクトル情報に基
づいて話者を識別する話者識別工程と、識別された話者
情報と検索条件とを比較して所望の話者を検索する条件
比較工程と、検索結果に応じて、上記所望の話者の会話
部分を含む符号化音声データの情報と当該会話部分の情
報とを少なくとも出力する検索結果出力工程とを有する
ことを特徴としている。
【0120】ここで、上記スペクトル分析がスペクトル
包絡の分析であり、上記スペクトル情報がスペクトル包
絡情報であってもよい。
【0121】また、上記スペクトル包絡の分析がLPC
(線形予測)分析であり、上記スペクトル包絡情報がL
PC情報又はLPC情報に変換可能なLPC関連情報で
あってもよい。
【0122】このような情報検索方法では、スペクトル
分析を用いて符号化された符号化音声データを対象とし
て話者の識別を行う場合に、上記符号化音声データを音
声波形に復号する処理と復号された音声波形を分析する
処理が行われず、上記符号化音声データからスペクトル
情報のみを復号し、そのスペクトル情報によって話者の
識別処理が行われ、識別された話者情報と検索条件とを
比較することで、所望の話者の検索が行われる。
【0123】これにより、識別処理に必要な演算量と記
憶容量とを大幅に削減することができ、また、復号と再
分析の影響による認識性能の劣化を低減し、所望の話者
を適切に検索することができる。
【図面の簡単な説明】
【図1】本実施の形態における情報検出装置の概念構成
を説明する図である。
【図2】本実施の形態における情報検索装置の概念構成
を説明する図である。
【図3】同情報検出装置及び同情報検索装置の構成を説
明する図である。
【図4】同情報検索装置の一連の処理を説明するフロー
チャートである。
【図5】同情報検索装置における話者認識ブロック及び
LPC分析ブロックの関係を説明する図である。
【図6】同情報検索装置における話者識別処理を説明す
るフローチャートである。
【図7】同情報検索装置における話者照合判定処理を説
明するフローチャートである。
【図8】同情報検索装置における話者照合判定用の閾値
データの記録形式の一例を説明する図である。
【図9】同情報検索装置における話者情報データベース
の一例を説明する図である。
【図10】LPC分析を用いた一般的な音声符号化装置
の構成を説明する図である。
【図11】同音声符号化装置における符号化音声データ
の記録形式の一例を説明する図である。
【符号の説明】
1 LPC復号手段、2 話者識別手段、3 条件比較
手段、10 情報検索装置、20 入力部、21 デー
タ読み込み部、22 LSP復号部、23 LPC変換
部、24 ケプストラム変換部、25 ベクトル量子化
部、26 話者識別部、27 話者情報出力部、28
出力部、30 情報検出部、31 検索条件入力部、3
2 条件比較部、33 検索結果出力部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 9/14 J Fターム(参考) 5D015 AA02 CC03 HH02 5D045 CB01 DA02 5J064 AA02 BB03 BC14 BC27 BD01

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】 スペクトル分析を用いた音声符号化方式
    によって符号化された符号化音声データから所定の情報
    を検出する情報検出装置において、 上記符号化音声データからスペクトル情報を復元するス
    ペクトル情報復号手段と、 復元された上記スペクトル情報に基づいて話者を識別す
    る話者識別手段とを備えることを特徴とする情報検出装
    置。
  2. 【請求項2】 上記話者識別手段は、時間軸情報に復元
    する前のスペクトル情報に基づいて話者を識別すること
    を特徴とする請求項1記載の情報検出装置。
  3. 【請求項3】 上記話者識別手段は、上記スペクトル情
    報の類似性によって所定の評価区間毎に話者を識別する
    ことを特徴とする請求項2記載の情報検出装置。
  4. 【請求項4】 上記スペクトル分析は、スペクトル包絡
    の分析であり、上記スペクトル情報は、スペクトル包絡
    情報であることを特徴とする請求項1記載の情報検出装
    置。
  5. 【請求項5】 上記スペクトル包絡の分析は、LPC
    (線形予測)分析であり、上記スペクトル包絡情報は、
    LPC情報又はLPC情報に変換可能なLPC関連情報
    であることを特徴とする請求項4記載の情報検出装置。
  6. 【請求項6】 上記LPC関連情報は、LSP(線スペ
    クトル対)情報であり、 上記スペクトル情報復号手段は、上記符号化音声データ
    に含まれる上記LSP情報に基づいて上記LPC情報を
    復元することを特徴とする請求項5記載の情報検出装
    置。
  7. 【請求項7】 スペクトル分析を用いた音声符号化方式
    によって符号化された符号化音声データから所定の情報
    を検出する情報検出方法において、 上記符号化音声データからスペクトル情報を復元するス
    ペクトル情報復号工程と、 復元された上記スペクトル情報に基づいて話者を識別す
    る話者識別工程とを有することを特徴とする情報検出方
    法。
  8. 【請求項8】 上記話者識別工程では、時間軸情報に復
    元する前のスペクトル情報に基づいて話者が識別される
    ことを特徴とする請求項7記載の情報検出方法。
  9. 【請求項9】 上記話者識別工程では、上記スペクトル
    情報の類似性によって所定の評価区間毎に話者が識別さ
    れることを特徴とする請求項8記載の情報検出方法。
  10. 【請求項10】 上記スペクトル分析は、スペクトル包
    絡の分析であり、上記スペクトル情報は、スペクトル包
    絡情報であることを特徴とする請求項7記載の情報検出
    方法。
  11. 【請求項11】 上記スペクトル包絡の分析は、LPC
    (線形予測)分析であり、上記スペクトル包絡情報は、
    LPC情報又はLPC情報に変換可能なLPC関連情報
    であることを特徴とする請求項10記載の情報検出方
    法。
  12. 【請求項12】 上記LPC関連情報は、LSP(線ス
    ペクトル対)情報であり、 上記スペクトル情報復号工程では、上記符号化音声デー
    タに含まれる上記LSP情報に基づいて上記LPC情報
    が復元されることを特徴とする請求項11記載の情報検
    出方法。
  13. 【請求項13】 スペクトル分析を用いた音声符号化方
    式によって符号化された符号化音声データから所望の情
    報を検索する情報検索装置において、 上記符号化音声データからスペクトル情報を復元するス
    ペクトル情報復号手段と、 復元された上記スペクトル情報に基づいて話者を識別す
    る話者識別手段と、 識別された話者情報と検索条件とを比較して所望の話者
    を検索する条件比較手段と、 検索結果に応じて、上記所望の話者の会話部分を含む符
    号化音声データの情報と当該会話部分の情報とを少なく
    とも出力する検索結果出力手段とを備えることを特徴と
    する情報検索装置。
  14. 【請求項14】 上記話者識別手段は、時間軸情報に復
    元する前のスペクトル情報に基づいて話者を識別するこ
    とを特徴とする請求項13記載の情報検索装置。
  15. 【請求項15】 上記話者識別手段は、上記スペクトル
    情報の類似性によって所定の評価区間毎に話者を識別す
    ることを特徴とする請求項14記載の情報検索装置。
  16. 【請求項16】 上記スペクトル分析は、スペクトル包
    絡の分析であり、上記スペクトル情報は、スペクトル包
    絡情報であることを特徴とする請求項13記載の情報検
    索装置。
  17. 【請求項17】 上記スペクトル包絡の分析は、LPC
    (線形予測)分析であり、上記スペクトル包絡情報は、
    LPC情報又はLPC情報に変換可能なLPC関連情報
    であることを特徴とする請求項16記載の情報検索装
    置。
  18. 【請求項18】 上記LPC関連情報は、LSP(線ス
    ペクトル対)情報であり、 上記スペクトル情報復号手段は、上記符号化音声データ
    に含まれる上記LSP情報に基づいて上記LPC情報を
    復元することを特徴とする請求項17記載の情報検索装
    置。
  19. 【請求項19】 スペクトル分析を用いた音声符号化方
    式によって符号化された符号化音声データから所望の情
    報を検索する情報検索方法において、 上記符号化音声データからスペクトル情報を復元するス
    ペクトル情報復号工程と、 復元された上記スペクトル情報に基づいて話者を識別す
    る話者識別工程と、 識別された話者情報と検索条件とを比較して所望の話者
    を検索する条件比較工程と、 検索結果に応じて、上記所望の話者の会話部分を含む符
    号化音声データの情報と当該会話部分の情報とを少なく
    とも出力する検索結果出力工程とを有することを特徴と
    する情報検索方法。
  20. 【請求項20】 上記話者識別工程では、時間軸情報に
    復元する前のスペクトル情報に基づいて話者が識別され
    ることを特徴とする請求項19記載の情報検索方法。
  21. 【請求項21】 上記話者識別工程では、上記スペクト
    ル情報の類似性によって所定の評価区間毎に話者が識別
    されることを特徴とする請求項20記載の情報検索方
    法。
  22. 【請求項22】 上記スペクトル分析は、スペクトル包
    絡の分析であり、上記スペクトル情報は、スペクトル包
    絡情報であることを特徴とする請求項19記載の情報検
    索方法。
  23. 【請求項23】 上記スペクトル包絡の分析は、LPC
    (線形予測)分析であり、上記スペクトル包絡情報は、
    LPC情報又はLPC情報に変換可能なLPC関連情報
    であることを特徴とする請求項22記載の情報検索方
    法。
  24. 【請求項24】 上記LPC関連情報は、LSP(線ス
    ペクトル対)情報であり、 上記スペクトル情報復号工程では、上記符号化音声デー
    タに含まれる上記LSP情報に基づいて上記LPC情報
    が復元されることを特徴とする請求項23記載の情報検
    索方法。
JP2001225051A 2001-07-25 2001-07-25 情報検出装置及び方法、並びに情報検索装置及び方法 Abandoned JP2003036097A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001225051A JP2003036097A (ja) 2001-07-25 2001-07-25 情報検出装置及び方法、並びに情報検索装置及び方法
US10/201,069 US7315819B2 (en) 2001-07-25 2002-07-23 Apparatus for performing speaker identification and speaker searching in speech or sound image data, and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001225051A JP2003036097A (ja) 2001-07-25 2001-07-25 情報検出装置及び方法、並びに情報検索装置及び方法

Publications (1)

Publication Number Publication Date
JP2003036097A true JP2003036097A (ja) 2003-02-07

Family

ID=19058108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001225051A Abandoned JP2003036097A (ja) 2001-07-25 2001-07-25 情報検出装置及び方法、並びに情報検索装置及び方法

Country Status (2)

Country Link
US (1) US7315819B2 (ja)
JP (1) JP2003036097A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006078654A (ja) * 2004-09-08 2006-03-23 Embedded System:Kk 音声認証装置及び方法並びにプログラム

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181393B2 (en) * 2002-11-29 2007-02-20 Microsoft Corporation Method of real-time speaker change point detection, speaker tracking and speaker model construction
US7720012B1 (en) 2004-07-09 2010-05-18 Arrowhead Center, Inc. Speaker identification in the presence of packet losses
JP5036317B2 (ja) * 2004-10-28 2012-09-26 パナソニック株式会社 スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
US20060095261A1 (en) * 2004-10-30 2006-05-04 Ibm Corporation Voice packet identification based on celp compression parameters
KR100956525B1 (ko) * 2005-04-01 2010-05-07 퀄컴 인코포레이티드 스피치 신호의 스플릿 대역 인코딩을 위한 방법 및 장치
US8892448B2 (en) 2005-04-22 2014-11-18 Qualcomm Incorporated Systems, methods, and apparatus for gain factor smoothing
US7606707B2 (en) * 2005-09-06 2009-10-20 Toshiba Tec Kabushiki Kaisha Speaker recognition apparatus and speaker recognition method to eliminate a trade-off relationship between phonological resolving performance and speaker resolving performance
US7769583B2 (en) * 2006-05-13 2010-08-03 International Business Machines Corporation Quantizing feature vectors in decision-making applications
KR100932538B1 (ko) * 2007-12-12 2009-12-17 한국전자통신연구원 음성 합성 방법 및 장치
EP2077658A1 (de) * 2008-01-04 2009-07-08 Siemens Aktiengesellschaft Verfahren zur Bereitstellung eines Dienstes für einen Nutzer
CN102543075A (zh) * 2012-01-12 2012-07-04 东北石油大学 基于虚拟仪器技术的说话人vq-svm并行识别系统
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
GB201408302D0 (en) * 2014-05-12 2014-06-25 Jpy Plc Unifying text and audio
RU2704723C2 (ru) * 2018-03-12 2019-10-30 Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" Устройство автоматической верификации личности по голосу
CN109545227B (zh) * 2018-04-28 2023-05-09 华中师范大学 基于深度自编码网络的说话人性别自动识别方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5012518A (en) * 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US4975956A (en) * 1989-07-26 1990-12-04 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US5303299A (en) * 1990-05-15 1994-04-12 Vcs Industries, Inc. Method for continuous recognition of alphanumeric strings spoken over a telephone network
US5125022A (en) * 1990-05-15 1992-06-23 Vcs Industries, Inc. Method for recognizing alphanumeric strings spoken over a telephone network
US5666466A (en) * 1994-12-27 1997-09-09 Rutgers, The State University Of New Jersey Method and apparatus for speaker recognition using selected spectral information

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006078654A (ja) * 2004-09-08 2006-03-23 Embedded System:Kk 音声認証装置及び方法並びにプログラム

Also Published As

Publication number Publication date
US7315819B2 (en) 2008-01-01
US20030036905A1 (en) 2003-02-20

Similar Documents

Publication Publication Date Title
KR100316077B1 (ko) 분산형음성인식시스템
CN1645477B (zh) 使用用户纠正的自动语音识别学习
EP0788090B1 (en) Transcription of speech data with segments from acoustically dissimilar environments
US5627939A (en) Speech recognition system and method employing data compression
US11763801B2 (en) Method and system for outputting target audio, readable storage medium, and electronic device
US6119086A (en) Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens
JP2003036097A (ja) 情報検出装置及び方法、並びに情報検索装置及び方法
JP2004504641A (ja) 話者独立音声認識システムのための音声テンプレートを構成するための方法及び装置
US5943647A (en) Speech recognition based on HMMs
CN118298803B (zh) 语音克隆方法
US7050969B2 (en) Distributed speech recognition with codec parameters
JP4696418B2 (ja) 情報検出装置及び方法
Chow et al. Robust speaker identification based on perceptual log area ratio and Gaussian mixture models.
Das Some experiments in discrete utterance recognition
JPH10254473A (ja) 音声変換方法及び音声変換装置
Atal et al. Speech research directions
Unnibhavi et al. A survey of speech recognition on south Indian Languages
KR100901640B1 (ko) 음성 인식을 위한 음성 특징 벡터 양자화에 있어 비균일표본을 기반으로 하는 학습 데이터 선정 방법
EP1505572A1 (en) Voice recognition method
Li Speech recognition of mandarin monosyllables
JPH10149190A (ja) 音声認識方法及び音声認識装置
JP5136621B2 (ja) 情報検索装置及び方法
JP4932530B2 (ja) 音響処理装置、音響処理方法、音響処理プログラム、照合処理装置、照合処理方法及び照合処理プログラム
KR100451539B1 (ko) 유닛 접합식 tts 음성 합성 방법
JP2003140693A (ja) 音声復号装置及び方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050816

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20051017