WO2025187145A1

WO2025187145A1 - 情報処理方法、情報処理装置及びプログラム

Info

Publication number: WO2025187145A1
Application number: PCT/JP2024/042181
Authority: WO
Inventors: 光佑板倉
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2024-03-06
Filing date: 2024-11-28
Publication date: 2025-09-12
Anticipated expiration: 2026-09-06
Also published as: WO2025187145A8

Abstract

本開示にかかる情報処理方法は、登録話者の登録音声と取得した評価音声との評価話者表現ベクトルの類似性を示すスコアを算出し、少なくとも２以上のスコア補正処理を組み合わせてスコアを補正し、補正されたスコアと事前に設定された閾値とを比較して評価対象の話者が登録話者に一致するか否かを判定し、判定結果を示す情報を出力する。少なくとも２以上のスコア補正処理は、メタデータの音声間の相互作用のモデルを用いてスコアを補正する第１の処理と、不特定多数話者音声の不特定多数話者表現ベクトルとの照合結果をもとに話者照合のスコアを補正する第２の処理と、を含む。少なくとも第１の処理は、第２の処理より前に適用される。

Description

情報処理方法、情報処理装置及びプログラム

　本開示は、情報処理方法、情報処理装置及びプログラムに関する。

　一般に、話者認識（Ｓｐｅａｋｅｒ　Ｒｅｃｏｇｎｉｔｉｏｎ）においては、事前に登録した登録話者の登録音声と評価対象の未知話者の入力音声とを比較して類似度（スコア）を算出し、そのスコアを事前に設定された閾値と比較することにより、入力音声が名乗った本人の音声であるかの判定（話者照合：Ｓｐｅａｋｅｒ　Ｖｅｒｉｆｉｃａｔｉｏｎ）や、いずれの登録話者であるかの判定（話者識別：Ｓｐｅａｋｅｒ　Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）が行われている。

Sturim　D.E.　and　Reynolds　D.A.,　Speaker　adaptive　cohort　selection　for　Tnorm　in　text-independent　speaker　verification,　ICASSP,　IEEE　International　Conference　on　Acoustics,　Speech　and　Signal　Processing　-　Proceedings,　I,　art.　no.1415220,　pp.741-744(2005). Mandasari,　M.I.,　Saeidi,　R.,　McLaren,　M.　and　van　Leeuwen,　D.A.,　Quality　measurefunctions　for　calibration　of　speaker　recognition　systems　in　various　duration　conditions,　IEEE　Transactions　on　Audio,　Speech,　and　Language　Processing,　21(11),　pp.425-2438(2013). Yu　Zheng,　Yajun　Zhang,　Chuanying　Niu,　Yibin　Zhan,　Yanhua　Long,　and　Dongxing　Xu,　Unisound　system　for　voxceleb　speaker　recognition　challenge　2023,　eprint　arXiv:2308.12526(2023).

　しかしながら、実環境では、その音声が収録された条件によって類似度（スコア）が変化するため、例えば、その条件の変化によって本人の入力音声であるにもかかわらずスコアが閾値を下回ったり、他人の入力音声であるにもかかわらずスコアが閾値を上回ったりするなど、誤判定（誤認識）が生じるおそれがあった。このため、話者認識においては、スコアの適切な補正に関し、改善の余地があった。

　本開示は、実環境において変動し得る話者認識のスコアを適切に補正することを目的の一つとする。

　本開示にかかる情報処理方法は、少なくとも一つのプロセッサを備える情報処理装置において前記少なくとも一つのプロセッサが実行する情報処理方法であって、登録した登録話者の音声である登録音声に関する登録話者データを記憶し、評価対象の話者の音声である評価音声を取得し、前記登録音声の特徴量である登録話者表現ベクトルと、前記評価音声の特徴量である評価話者表現ベクトルと、の間の類似性を示すスコアを算出し、少なくとも２以上のスコア補正処理を組み合わせて前記スコアを補正し、補正された前記スコアと事前に設定された閾値とを比較して前記評価対象の話者が前記登録話者に一致するか否かを判定し、判定結果を示す情報を出力する。前記少なくとも２以上のスコア補正処理は、前記登録音声及び前記評価音声の品質指標を含むメタデータの音声間の相互作用のモデルを用いて前記スコアを補正する第１の処理と、不特定多数話者の音声である不特定多数話者音声の不特定多数話者表現ベクトルとの照合結果をもとに話者照合のスコアを補正する第２の処理と、を含む。少なくとも前記第１の処理は、前記第２の処理より前に適用される。

図１は、第１の実施形態にかかる話者照合スコア補正システムの構成の一例を示す図である。図２は、第１の実施形態にかかる話者照合装置の機能構成の一例を示す図である。図３は、第１の実施形態にかかる話者照合装置を実現する情報処理装置のハードウェア構成の一例を示す図である。図４は、第１の実施形態にかかる話者照合装置において実行される、スコア補正処理の流れの一例を示すフローチャートである。図５は、図４のＱＭＦの処理の一例について説明するための図である。図６は、図４のＣＭＦの処理の一例について説明するための図である。図７は、図４のＡＳｎｏｒｍの処理の一例について説明するための図である。図８は、第１の実施形態にかかるスコア補正による話者照合の精度向上について説明するための図である。図９は、第２の実施形態にかかるＡＳｎｏｒｍの処理の一例について説明するための図である。図１０は、第２の実施形態にかかるスコア補正による話者照合の精度向上について説明するための図である。図１１は、第３の実施形態にかかるＡＳｎｏｒｍの処理の一例について説明するための図である。

（１）
　本開示にかかる情報処理方法は、少なくとも一つのプロセッサを備える情報処理装置において前記少なくとも一つのプロセッサが実行する情報処理方法である。前記情報処理方法は、登録した登録話者の音声である登録音声に関する登録話者データを記憶し、評価対象の話者の音声である評価音声を取得し、前記登録音声の特徴量である登録話者表現ベクトルと、前記評価音声の特徴量である評価話者表現ベクトルと、の間の類似性を示すスコアを算出し、少なくとも２以上のスコア補正処理を組み合わせて前記スコアを補正し、補正された前記スコアと事前に設定された閾値とを比較して前記評価対象の話者が前記登録話者に一致するか否かを判定し、判定結果を示す情報を出力する。前記少なくとも２以上のスコア補正処理は、前記登録音声及び前記評価音声の品質指標を含むメタデータの音声間の相互作用のモデルを用いて前記スコアを補正する第１の処理と、不特定多数話者の音声である不特定多数話者音声の不特定多数話者表現ベクトルとの照合結果をもとに話者照合のスコアを補正する第２の処理と、を含む。少なくとも前記第１の処理は、前記第２の処理より前に適用される。

　この構成によれば、ＡＳｎｏｒｍの処理の前にＱＭＦの処理が適用されるため、話者照合の性能を向上させることができる。したがって、実環境において変動し得る話者認識のスコアを適切に補正することができる。

（２）
　上記（１）に記載の情報処理方法において、前記少なくとも２以上のスコア補正処理は、各音声の時間ごとの話者表現ベクトルのばらつきに基づいて前記スコアを補正する第３の処理をさらに含む。

　この構成によれば、ＣＭＦの処理をさらに適用する場合であっても、少なくともＡＳｎｏｒｍの処理の前にＱＭＦの処理が適用されるため、話者照合の性能を向上させることができる。

（３）
　上記（１）又は上記（２）に記載の情報処理方法において、前記メタデータは、前記不特定多数話者音声の前記第１の処理に用いる不特定多数話者表現ベクトルに基づく前記スコアの平均値を含む。

　この構成によれば、ＡＳｎｏｒｍの処理に先立ってＱＭＦの処理が適用されるため、発話長やＳＮといった品質指標に加えて、不特定多数話者データ４とのスコア平均をメタデータとして用いる場合であっても、話者照合の性能を向上させることができる。

（４）
　上記（１）又は上記（２）に記載の情報処理方法において、前記第１の処理は、前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれと、前記第１の処理に用いる不特定多数話者表現ベクトルと、の前記スコアを算出し、前記登録話者表現ベクトルとの前記スコアが高い前記第１の処理に用いる不特定多数話者表現ベクトルを、前記評価話者表現ベクトルと比較した場合の前記スコアを選別し、前記評価話者表現ベクトルとの前記スコアが高い前記第１の処理に用いる不特定多数話者表現ベクトルを、前記登録話者表現ベクトルと比較した場合の前記スコアを選別し、前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれに対する前記第１の処理に用いる不特定多数話者表現ベクトルの前記スコアの平均値を算出する。

（５）
　上記（１）から上記（４）のうちのいずれか一項に記載の情報処理方法において、前記第２の処理は、前記登録話者表現ベクトルと、前記第２の処理に用いる不特定多数話者表現ベクトルと、を入力とした前記第１の処理と、前記評価話者表現ベクトルと、前記第２の処理に用いる不特定多数話者表現ベクトルと、を入力とした前記第１の処理と、を含み、前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれと、前記第２の処理に用いる不特定多数話者表現ベクトルと、の前記スコアを算出し、前記登録話者表現ベクトルとの前記スコアが高い前記第２の処理に用いる不特定多数話者表現ベクトルを、前記評価話者表現ベクトルと比較した場合の前記スコアを選別し、前記評価話者表現ベクトルとの前記スコアが高い前記第２の処理に用いる不特定多数話者表現ベクトルを、前記登録話者表現ベクトルと比較した場合の前記スコアを選別し、前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれに対する前記第２の処理に用いる不特定多数話者表現ベクトルの前記スコアの平均値及び分散値を算出し、少なくとも前記第１の処理で補正された前記スコアを、算出した前記平均値及び前記分散値を用いて正規化する。

（６）
　上記（１）から上記（４）のうちのいずれか一項に記載の情報処理方法において、前記第２の処理は、前記登録話者表現ベクトルと、前記第２の処理に用いる不特定多数話者表現ベクトルと、の前記スコアを算出し、前記評価話者表現ベクトルと、前記第２の処理に用いる不特定多数話者表現ベクトルと、の前記スコアを算出し、前記登録話者表現ベクトルとの前記スコアが高い前記第２の処理に用いる不特定多数話者表現ベクトルを、前記評価話者表現ベクトルと比較した場合の前記スコアを選別し、前記評価話者表現ベクトルとの前記スコアが高い前記第２の処理に用いる不特定多数話者表現ベクトルを、前記登録話者表現ベクトルと比較した場合の前記スコアを選別し、前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれに対する前記第２の処理に用いる不特定多数話者表現ベクトルの前記スコアの平均値及び分散値を算出し、少なくとも前記第１の処理で補正された前記スコアを、算出した前記平均値及び前記分散値を用いて正規化する。

　この構成によれば、少なくともＱＭＦの処理の後にＡＳｎｏｒｍの処理を適用することにより照合精度を向上しつつ、少なくともＱＭＦの処理の後に適用されるＡＳｎｏｒｍの処理についての演算量を削減することができる。

（７）
　上記（６）に記載の情報処理方法において、前記第２の処理は、算出した前記平均値及び前記分散値に対する前記第１の処理を含み、少なくとも前記第１の処理で補正された前記スコアを、前記第１の処理を適用した前記平均値及び前記分散値を用いて正規化する。

　この構成によれば、ＱＭＦの処理及びＣＭＦの処理の後に平均・分散を計算する場合であっても、ＱＭＦの処理及びＣＭＦの処理の前に平均・分散を計算する場合であっても、その計算結果、すなわち補正スコアの値は同程度であり、少なくともＱＭＦの処理の後に適用されるＡＳｎｏｒｍの処理についての演算量を削減することができる。

（８）
　上記（２）から上記（７）のうちの少なくとも上記（２）を引用するいずれか一項に記載の情報処理方法においては、前記第１の処理、前記第３の処理、前記第２の処理の順に適用される。

　この構成によれば、ＡＳｎｏｒｍの処理の前にＱＭＦの処理が適用されるため、話者照合の性能を向上させることができる。

（９）
　本開示にかかる情報処理装置は、メモリと、少なくとも一つのプロセッサと、を備える。前記メモリは、登録した登録話者の音声である登録音声に関する登録話者データを記憶する。前記少なくとも一つのプロセッサは、評価対象の話者の音声である評価音声を取得し、前記登録音声の特徴量である登録話者表現ベクトルと、前記評価音声の特徴量である評価話者表現ベクトルと、の間の類似性を示すスコアを算出し、少なくとも２以上のスコア補正処理を組み合わせて前記スコアを補正し、補正された前記スコアと事前に設定された閾値とを比較して前記評価対象の話者が前記登録話者に一致するか否かを判定し、判定結果を示す情報を出力するように構成されている。前記少なくとも２以上のスコア補正処理は、前記登録音声及び前記評価音声の品質指標を含むメタデータの音声間の相互作用のモデルを用いて前記スコアを補正する第１の処理と、不特定多数話者の音声である不特定多数話者音声の不特定多数話者表現ベクトルとの照合結果をもとに話者照合のスコアを補正する第２の処理と、を含む。少なくとも前記第１の処理は、前記第２の処理より前に適用される。

（１０）
　本開示にかかるプログラムは、登録した登録話者の音声である登録音声に関する登録話者データを記憶し、評価対象の話者の音声である評価音声を取得し、前記登録音声の特徴量である登録話者表現ベクトルと、前記評価音声の特徴量である評価話者表現ベクトルと、の間の類似性を示すスコアを算出し、少なくとも２以上のスコア補正処理を組み合わせて前記スコアを補正し、補正された前記スコアと事前に設定された閾値とを比較して前記評価対象の話者が前記登録話者に一致するか否かを判定し、判定結果を示す情報を出力することをコンピュータに実行させるためのプログラムである。前記少なくとも２以上のスコア補正処理は、前記登録音声及び前記評価音声の品質指標を含むメタデータの音声間の相互作用のモデルを用いて前記スコアを補正する第１の処理と、不特定多数話者の音声である不特定多数話者音声の不特定多数話者表現ベクトルとの照合結果をもとに話者照合のスコアを補正する第２の処理と、を含む。少なくとも前記第１の処理は、前記第２の処理より前に適用される。

　以下、図面を参照しながら、本開示にかかる話者認識方法（情報処理方法）、話者認識装置（情報処理装置）、プログラム及び記録媒体の各実施の形態について説明する。

　なお、本開示の説明において、既出の図に関して前述したものと同一又は略同一の機能を有する構成要素については、同一符号を付し、説明を適宜省略する場合もある。また、同一又は略同一の部分を表す場合であっても、図面により互いの寸法や比率が異なって表されている場合もある。また、例えば図面の視認性を確保する観点から、各図面の説明において主要な構成要素だけに参照符号を付し、既出の図において前述したものと同一又は略同一の機能を有する構成要素であっても参照符号を付していない場合もある。

　なお、本開示の説明において、同一又は略同一の機能を有する構成要素について、参照符号の末尾に英数字を追加することにより区別して記載する場合もある。あるいは、同一又は略同一の機能を有する複数の構成要素を区別しない場合には、参照符号の末尾に付された英数字を省略することにより統合して記載する場合もある。

　なお、以下の説明では、本開示にかかるスコア補正を、話者認識（Ｓｐｅａｋｅｒ　Ｒｅｃｏｇｎｉｔｉｏｎ）としての話者照合（Ｓｐｅａｋｅｒ　Ｖｅｒｉｆｉｃａｔｉｏｎ）に対して適用した場合を例示するが、これに限らない。本開示にかかるスコア補正は、話者照合に代えて、あるいは加えて、話者識別（Ｓｐｅａｋｅｒ　Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）に適用してもよい。つまり、本開示にかかる話者照合スコア補正システムは、話者識別スコア補正システム、あるいは話者認識スコア補正システムとして実現されてもよい。同様に、本開示にかかる話者照合装置は、話者識別装置、あるいは話者認識装置として実現されてもよい。

　なお、本開示にかかる話者認識は、発話（発声）すべき語句を予め定めておく発声内容依存型の話者認識であってもよいし、任意の語句を発声すればよい発声内容独立型の話者認識であってもよいし、これらの組合せであってもよい。

　なお、本開示にかかる話者照合スコア補正システム１は、車両などの移動体に適用されてもよい。例えば、本開示に係る話者認識装置は、例えば自動運転など、ユーザによる音声での操作に応じた制御を実行可能に構成された移動体に搭載されてもよい。ここで、移動体とは、各種の車両であってよく、モータを動力源として駆動される電気自動車などのＥＶ車両であってもよいし、エンジン（内燃機関）を動力源として駆動される自動車などの車両であってもよいし、エンジンとモータとを動力源として併用して駆動されるハイブリッド車両であってもよい。また、移動体は、例えば乗用車やトラック、自動二輪車などの自動車（車両）であるが、電動自転車や電動キックボード、電動車椅子、建機（建設機械）、農機（農業機械）、船舶、鉄道、飛行機（航空機）などであっても構わない。また、移動体は、自律移動可能に構成されていてもよいし、ユーザの直接又は遠隔の操作に応じて移動可能に構成されていてもよい。ここで、移動体の「音声による操作」とは、例えば運転操作やナビゲーションシステムの目的地や経路の設定といった、移動体の移動を制御する操作であってもよいし、音楽再生や映像再生、インターネット検索といった、移動体の有する移動の他の機能を制御する操作であってもよい。また、移動体の「移動」とは、自律又は他律の制御（運転制御）により実現されるものであり、「運転」と表現されてもよい。また、移動体を音声により操作するユーザは、移動体の運転手、同乗者などの乗員であってもよいし、移動体の外部から移動体を遠隔操作するオペレータであってもよい。

（第１の実施形態）
　図１は、第１の実施形態にかかる話者照合スコア補正システム１の構成の一例を示す図である。

　話者照合スコア補正システム１は、事前に登録した登録話者の音声（登録音声）と、照合したい、すなわち評価対象の未知話者の音声（評価音声）と、を比較して類似度を計算し、その類似度をもとに未知話者が登録話者と一致するか否かを判定する。例えば、話者照合スコア補正システム１は、事前に設定された閾値と類似度とを比較することにより、未知話者が登録話者と一致するか否かを判定する。なお、本実施形態では、事前に登録話者の音声を登録音声として登録するユースケースを例示するが、これに限らない。本実施形態にかかる話者照合スコア補正システム１は、登録話者を「事前に」登録しないユースケースに対して適用してもよい。一例として、会議の議事録などを取るユースケースに適用すれば、登録話者の登録を「事前に」ではなく「同時並行で」行うことができる。例えば、話者照合スコア補正システム１は、登録する登録話者の音声と、評価対象の未知話者の音声と、を同時に並行して取得し、取得したこれらの音声を比較して類似度を計算してもよい。また、本実施形態では、評価対象の話者が未知の話者である場合を例示するが、これに限らない。評価対象の話者は、例えば以前に登録又は評価された既知の話者であっても構わない。

　例えば、実環境（例えば雑音環境下）では、その音声が収録された条件によって類似度（スコア）が変化する。このため、例えば、その条件の変化によって本人の入力音声であるにもかかわらずスコアが閾値を下回ってしまう場合があった。また、例えば、他人の入力音声であるにもかかわらずスコアが閾値を上回ってしまう場合があった。換言すれば、実環境では、その音声が収録された条件によってスコアが変化してしまうため、誤判定（誤照合）が生じるおそれがあった。このようなことから、実環境において収録条件によって変化し得る話者照合のスコアを適切に補正して照合精度を向上させる技術には需要があった。

　このような中、実施形態にかかる話者照合スコア補正システム１は、比較対象の音声データから抽出された話者表現ベクトル（ｘ－ｖｅｃｔｏｒ）間の類似性を示す話者照合の類似度（スコア）を、少なくとも２以上のスコア補正技術を組み合わせて補正するように構成されている。

　一例として、実施形態にかかる話者照合スコア補正システム１は、音声間の発話長や信号対雑音（ＳＮ）といった品質指標（メタデータ）の相互作用をモデル化した品質測定関数（ＱＭＦ：Ｑｕａｌｉｔｙ　Ｍｅａｓｕｒｅ　Ｆｕｎｃｔｉｏｎｓ）モデルを用いて話者照合のスコアを加算又は減算（補正）するＱＭＦの処理（第１の処理）を行うように構成されている。換言すれば、実施形態にかかる話者照合スコア補正システム１は、品質指標（メタデータ）に対してどのくらい話者照合のスコアを補正するかを学習したＱＭＦモデルを用いて話者照合のスコアを補正するＱＭＦの処理を行うように構成されている。ここで、モデルの学習とは、モデルを規定する少なくとも一つの関数のパラメータを決定又は更新することを言う。ＱＭＦの処理の詳細については、後述する。

　一例として、実施形態にかかる話者照合スコア補正システム１は、各音声の時間ごとの特徴量（例えば音声声紋）のばらつきをもとに話者照合のスコアにペナルティを付与（補正）するＣＭＦ（Ｃｏｎｓｉｓｔｅｎｃｙ　Ｍｅａｓｕｒｅ　Ｆａｃｔｏｒ）の処理（第３の処理）を行うように構成されている。具体的には、実施形態にかかる話者照合スコア補正システム１は音声の時間ごとの特徴量の一貫性又は分散の程度が反映されたＣＭＦ値を各音声について個別に算出し、算出したＣＭＦ値を補正係数として用いて話者照合のスコアをスケーリングする。このＣＭＦは、例えば、その値が大きいほど話者表現ベクトルの分布が集中していることを示し、話者照合のスコアを増大させる。ＣＭＦの処理の詳細については、後述する。

　一例として、実施形態にかかる話者照合スコア補正システム１は、不特定多数話者（Ｉｍｐｏｓｔｅｒ）との照合結果をもとに話者照合のスコアを正規化（補正）するＡＳｎｏｒｍ（Ａｄａｐｔｉｖｅ　Ｓｙｍｍｅｔｒｉｃ　ｎｏｒｍａｌｉｚａｔｉｏｎ）の処理（第２の処理）を行うように構成されている。ＡＳｎｏｒｍの処理の詳細については、後述する。

　そして、実施形態にかかる話者照合スコア補正システム１は、少なくとも２以上のスコア補正技術を組み合わせて補正した類似度（補正スコア）と、事前に設定された閾値と、を比較することにより、未知話者が登録話者と一致するか否かを判定（照合）する。また、話者照合スコア補正システム１は、判定結果（照合結果）を示す情報を出力する。一例として、話者照合スコア補正システム１は、補正スコアが事前設定された閾値以上の場合、未知話者が登録話者（本人）であると判定し、未知話者が登録話者（本人）であることを示す照合結果を出力する。一方、話者照合スコア補正システム１は、補正スコアが事前設定された閾値未満の場合、未知話者が登録話者（本人）ではない人物（他人）であると判定し、未知話者が未登録話者（他人）であることを示す照合結果を出力する。

　図１に示すように、話者照合スコア補正システム１は、話者照合装置１０を含む。図２は、第１の実施形態にかかる話者照合装置１０の機能構成の一例を示す図である。図２に示すように、話者照合装置１０は、入出力部１０１、実行部１０２及び記憶部１０３としての機能を有する。

　入出力部１０１は、未知話者が発話した評価音声を取得する。また、入出力部１０１は、判定結果（照合結果）を示す情報を出力する。

　実行部１０２は、話者照合処理、スコア補正処理及び判定処理を行う。

　記憶部１０３は、話者照合装置１０で実行される各処理に関する、プログラムやパラメータ、処理中のデータ、処理結果のデータなどを記憶する。

　一例として、記憶部１０３は、登録話者データ３、不特定多数話者（Ｉｍｐｏｓｔｅｒ）データ４及び学習済みＱＭＦモデル５を記憶する。

　登録話者データ３は、事前に登録した登録話者の音声（登録音声）に関する情報である。登録話者データ３は、登録音声３ａ、登録話者表現ベクトル３ｂ及び登録メタデータ３ｃを含む。登録音声３ａは、事前に登録した登録話者の音声である。登録話者表現ベクトル３ｂは、登録音声３ａの話者表現ベクトル（ｘ－ｖｅｃｔｏｒ）であり、すなわち登録音声３ａから抽出された特徴量である。登録メタデータ３ｃは、登録音声３ａにおける発話長や信号対雑音（ＳＮ）といった品質指標（メタデータ）である。

　不特定多数話者データ４は、不特定多数の話者の音声（不特定多数話者音声）に関する情報である。不特定多数話者データ４は、ＡＳｎｏｒｍ用の不特定多数話者音声４ａ、ＱＭＦ用の不特定多数話者表現ベクトル４ｂ、ＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃ及びＡＳｎｏｒｍ用の不特定多数話者メタデータ４ｄを含む。ＡＳｎｏｒｍ用の不特定多数話者音声４ａは、ＡＳｎｏｒｍの処理に供される不特定多数話者の音声である。ＱＭＦ用の不特定多数話者表現ベクトル４ｂ及びＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃは、それぞれ不特定多数話者音声４ａの話者表現ベクトル（ｘ－ｖｅｃｔｏｒ）であり、すなわち不特定多数話者音声４ａから抽出された特徴量である。ＡＳｎｏｒｍ用の不特定多数話者メタデータ４ｄは、不特定多数話者音声４ａにおける発話長や信号対雑音（ＳＮ）といった品質指標（メタデータ）である。なお、本開示の説明において、「Ａ」用の「Ｘ」とは、少なくとも「Ａ」に用いる「Ｘ」を意味し、「Ａ」用の「Ｘ」が「Ａ」の他の「Ｂ」に用いられること、あるいは「Ａ」の他の「Ｃ」用の「Ｘ」が「Ａ」に用いられることを妨げるものではない。また、「Ａ」用の「Ｘ」と、「Ａ」の他の「Ｄ」用の「Ｘ」とは、その一部又は全部が共通であってもよい。

　学習済みＱＭＦモデル５は、類似度（スコア）及びメタデータの入力に応じてどのくらい補正するかを示す情報、あるいは補正後のスコアを出力するようにパラメータが決定された機械学習モデル又は少なくとも一つの関数である。この機械学習モデルとしては、ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）などの任意の機械学習モデルが処理に応じて適宜利用可能である。なお、学習済みＱＭＦモデル５は、話者照合装置１０の外部に記憶されていてもよい。

　なお、実施形態にかかる話者照合装置１０の各機能のうちの二つ以上の機能を統合して一つの機能として実現してもよい。また、実施形態にかかる話者照合装置１０の各機能の一部は、話者照合スコア補正システム１において話者照合装置１０の外部に設けられた情報処理装置により実現されてもよい。

　図３は、第１の実施形態にかかる話者照合装置１０を実現する情報処理装置８のハードウェア構成の一例を示す図である。

　図２に示すように、情報処理装置８は、プロセッサ８１、主記憶装置８２、補助記憶装置８３及びＩ／Ｆ（インタフェース）８４を有する。プロセッサ８１、主記憶装置８２、補助記憶装置８３及びＩ／Ｆ８４は、バスなどにより相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。なお、情報処理装置８の各構成要素は、二つ以上の構成要素の組合せにより実現されてもよい。

　プロセッサ８１は、例えば少なくとも一つのＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）である。プロセッサ８１は、例えばプログラムを実行することにより、情報処理装置８の動作を統括的に制御し、情報処理装置８の有する各機能を実現する。

　一例として、話者照合装置１０を実現する情報処理装置８において、プロセッサ８１は、補助記憶装置８３に格納されたプログラムを主記憶装置８２にロードして実行することにより、図２に例示する実行部１０２を含む、話者照合装置１０の各機能を実現する。

　なお、図２の例では、本実施形態の要部の説明に必要な機能のみを例示しているが、話者照合装置１０が有する機能はこれらに限られるものではない。また、話者照合装置１０の機能の一部又は全部が専用のハードウェア回路で実現される形態であってもよい。

　なお、実施形態にかかるプロセッサ８１は、情報処理装置８における少なくとも一つのプロセッサの一例である。当該少なくとも一つのプロセッサとしては、ＣＰＵに代えて、あるいはＣＰＵに加えて、他の少なくとも一つのプロセッサが利用されてもよい。他のプロセッサとしては、ＣＰＵ、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）などの各種プロセッサや、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）で実現される専用演算回路などが適宜利用可能である。

　主記憶装置８２は、例えばＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）である。主記憶装置８２は、プロセッサ８１による各種処理に必要なデータを一時的に記憶する。実施形態にかかる主記憶装置８２は、情報処理装置８における少なくとも一つのメモリの一例である。

　補助記憶装置８３は、例えばＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍоｒｙ）である。補助記憶装置８３は、プロセッサ８１による各種処理を実現するプログラムやパラメータなどを記憶する。実施形態にかかる補助記憶装置８３は、情報処理装置８における少なくとも一つのメモリの一例である。なお、補助記憶装置８３としては、ＲＯＭに代えて、あるいはＲＯＭに加えて、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）やＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）、Ｆｌａｓｈメモリなどの各種の記憶媒体や記憶装置が適宜利用可能である。

　一例として、話者照合装置１０を実現する情報処理装置８において主記憶装置８２及び補助記憶装置８３は、記憶部１０３を実現する。

　Ｉ／Ｆ８４は、入出力にかかる機能の実現、外部機器の接続及び／又は外部との通信のためのインタフェースである。なお、Ｉ／Ｆ８４は、音声や画像、映像を出力する出力デバイスを接続又は実現する出力インタフェースや、ユーザの操作入力を取得する入力デバイスを接続又は実現する入力インタフェース、あるいはこれらのデバイスとして機能するインタフェースであってもよい。出力デバイスとしては、液晶ディスプレイ（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ：ＬＣＤ）や有機ＥＬ（Ｅｌｅｃｔｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、プロジェクタなどの各種のディスプレイやスピーカなどが適宜利用可能である。また、入力デバイスとしては、キーボードやマウス、タッチパネル、マイクなどが適宜利用可能である。外部との通信のためのインタフェースとしては、有線又は無線通信用の通信回路が適宜利用可能である。無線通信用の通信回路としては、３Ｇや４Ｇ、５Ｇ、６Ｇ、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、赤外線通信などの各種の規格に対応した通信回路が適宜利用可能である。

　一例として、話者照合装置１０を実現する情報処理装置８においてＩ／Ｆ８４は、入力デバイスを接続又は実現する入力インタフェース（入出力部１０１）と、出力デバイスを接続又は実現する出力インタフェース（入出力部１０１）と、を実現する。

　なお、実施形態にかかる話者照合スコア補正システム１が車両（移動体）に適用される場合、話者照合装置１０を実現する情報処理装置８は、車両の内部に設けられたＥＣＵ（Ｅｌｅｃｔｒｏｎｉｃ　Ｃｏｎｔｒｏｌ　Ｕｎｉｔ）や複数のＥＣＵを統合したＣＤＣ（Ｃｏｃｋｐｉｔ　Ｄｏｍａｉｎ　Ｃｏｎｔｒｏｌｌｅｒ）などのＤＣＵ（Ｄｏｍａｉｎ　Ｃｏｎｔｒｏｌ　Ｕｎｉｔ）、あるいはＯＢＵ（Ｏｎ　Ｂｏａｒｄ　Ｕｎｉｔ）などの車載のコンピュータにより実現されてもよい。あるいは、話者照合装置１０を実現する情報処理装置８は、車両のダッシュボード付近に設置された外付けのコンピュータであってもよい。また、話者照合装置１０を実現する情報処理装置８は、他の車載装置と共通の情報処理装置８により実現されてもよいし、それぞれが異なる情報処理装置８により実現されてもよい。例えば、話者照合装置１０を実現する情報処理装置８は、車載のカーナビゲーション装置と一体に構成されていてもよい。

　また、実施形態にかかる話者照合スコア補正システム１が車両（移動体）に適用される場合、話者照合装置１０を実現する情報処理装置８は、車両内のＣＡＮ（Ｃｏｎｔｒｏｌｌｅｒ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）やＥｔｈｅｒｎｅｔ（登録商標）、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ（登録商標））などを含む車載ネットワークを介して、車両に搭載された他のコンピュータとの間で情報の送受信をしてもよいし、インターネットなどのネットワークを介して車両の外部の情報処理装置と通信をしてもよい。一例として、話者照合装置１０を実現する情報処理装置８は、話者照合の照合結果（判定結果）を、車両を制御する他の車載コンピュータに出力する。

　以下、図面を参照して、実施形態にかかる話者照合スコア補正システム１の動作例について説明する。なお、以下に説明する処理は一例であり、処理順序の変更や一部の処理の削除、他の処理の追加も可能である。

　まず、図１を参照しつつ、実施形態にかかる話者照合スコア補正システム１において実行される、話者照合にかかる全体の処理の流れを説明する。

　話者照合スコア補正システム１において話者照合装置１０の記憶部１０３には、事前に登録した登録話者の音声（登録音声）を含む登録話者データ３が記憶されている。

　話者照合装置１０の入出力部１０１は、評価対象の未知話者の音声（評価音声）を取得する。そして、実行部１０２は、登録音声と評価音声とを比較して類似度（スコア）を計算する話者照合の処理を行う（Ｓ１）。具体的には、話者照合の処理において実行部１０２は、登録音声と評価音声とのそれぞれから抽出された話者表現ベクトル（ｘ－ｖｅｃｔｏｒ）の間における類似性を示す話者照合の類似度（スコア）を算出する。また、実行部１０２は、少なくとも２以上のスコア補正技術を組み合わせて話者照合のスコアを補正するスコア補正の処理を行う（Ｓ２）。また、実行部１０２は、スコア補正の処理で補正された話者照合の類似度（補正スコア）と、事前に設定された閾値と、を比較することにより、未知話者が登録話者と一致するか否かを判定する判定（照合）の処理を行う（Ｓ３）。その後、入出力部１０１は、判定結果（照合結果）を出力する。

　図４は、第１の実施形態にかかる話者照合装置１０において実行される、スコア補正処理の流れの一例を示すフローチャートである。図４の流れは、図１のＳ１～Ｓ２の処理に対応する。

　まず、実行部１０２は、ＱＭＦの処理（第１の処理）を行い、音声間の発話長や信号対雑音（ＳＮ）といった品質指標（メタデータ）を用いて話者照合のスコアを加算又は減算（補正）する（Ｓ１０１）。

　その後、実行部１０２は、ＣＭＦの処理（第３の処理）を行い、各音声の時間ごとの特徴量（例えば音声声紋）のばらつきをもとに、ＱＭＦの処理で補正された話者照合のスコアに対してペナルティを付与（補正）する（Ｓ１０２）。

　その後、実行部１０２は、ＡＳｎｏｒｍの処理（第２の処理）を行い、不特定多数話者（Ｉｍｐｏｓｔｅｒ）との照合結果をもとに、ＱＭＦ及びＣＭＦの処理で補正された話者照合のスコアを正規化（補正）する（Ｓ１０３）。

　図５は、図４のＱＭＦの処理の一例について説明するための図である。

　ＱＭＦの処理において実行部１０２は、話者照合のスコアとして、登録音声３ａから抽出された登録話者表現ベクトル３ｂと、評価音声６ａから抽出された評価話者表現ベクトル６ｂと、のＣｏｓ（コサイン）類似度を算出する（Ｓ２０１）。

　このＣｏｓ類似度は、話者表現ベクトル間の類似度の尺度であり、例えばコサイン距離である。このコサイン距離は、例えば、話者表現ベクトルの内積を、話者表現ベクトルのそれぞれの大きさ（Ｌ２ノルム）の積で除した値として算出される。例えば、話者表現ベクトル間のＣｏｓ類似度が「１」であれば、その二つの話者表現ベクトルは、完全に似ている。例えば、話者表現ベクトル間のＣｏｓ類似度が「０」であれば、その二つの話者表現ベクトルは、似ている／似ていないに無関係である。例えば、話者表現ベクトル間のＣｏｓ類似度が「－１」であれば、その二つの話者表現ベクトルは完全に似ていない。

　また、実行部１０２は、登録話者表現ベクトル３ｂと、ＱＭＦ用の不特定多数話者表現ベクトル４ｂと、のＣｏｓ類似度を算出する（Ｓ２０２）。同様に、実行部１０２は、評価話者表現ベクトル６ｂと、ＱＭＦ用の不特定多数話者表現ベクトル４ｂと、のＣｏｓ類似度を算出する（Ｓ２０３）。

　そして、実行部１０２は、登録話者表現ベクトル３ｂと似ているＱＭＦ用の不特定多数話者表現ベクトル４ｂを、評価話者表現ベクトル６ｂと比較した場合のＣｏｓ類似度を選別するデータ選別を行う（Ｓ２０４）。同様に、実行部１０２は、評価話者表現ベクトル６ｂと似ているＱＭＦ用の不特定多数話者表現ベクトル４ｂを、登録話者表現ベクトル３ｂと比較した場合のＣｏｓ類似度を選別するデータ選別を行う（Ｓ２０５）。

　例えば、実行部１０２は、登録話者表現ベクトル３ｂに対するＣｏｓ類似度が高いＱＭＦ用の不特定多数話者表現ベクトル４ｂのうち、評価話者表現ベクトル６ｂに対するＣｏｓ類似度が高いＱＭＦ用の不特定多数話者表現ベクトル４ｂを選別する。例えば、実行部１０２は、評価話者表現ベクトル６ｂに対するＣｏｓ類似度が高いＱＭＦ用の不特定多数話者表現ベクトル４ｂのうち、登録話者表現ベクトル３ｂに対するＣｏｓ類似度が高いＱＭＦ用の不特定多数話者表現ベクトル４ｂを選別する。ここで、Ｃｏｓ類似度が高い話者表現ベクトルとは、Ｃｏｓ類似度が予め定められた閾値より高い話者表現ベクトルであってもよいし、Ｃｏｓ類似度が高い順に予め定められた個数の話者表現ベクトルであってもよい。

　また、実行部１０２は、データ選別後のＱＭＦ用の不特定多数話者表現ベクトル４ｂの登録話者表現ベクトル３ｂに対するＣｏｓ類似度の平均値を算出する（Ｓ２０６）。同様に、実行部１０２は、データ選別後のＱＭＦ用の不特定多数話者表現ベクトル４ｂの評価話者表現ベクトル６ｂに対するＣｏｓ類似度の平均値を算出する（Ｓ２０７）。

　そして、実行部１０２は、登録話者表現ベクトル３ｂに対するＱＭＦ用の不特定多数話者表現ベクトル４ｂのＣｏｓ類似度の平均値と、評価話者表現ベクトル６ｂに対するＱＭＦ用の不特定多数話者表現ベクトル４ｂのＣｏｓ類似度の平均値と、を用いてＱＭＦ用のパラメータを決定する（Ｓ２０８）。

　なお、ＱＭＦ用のパラメータは、算出された各平均値そのものであってもよいし、各平均値に基づく演算により算出された値であってもよい。このＱＭＦ用のパラメータもまた、ＱＭＦの処理におけるメタデータとして取り扱われる。つまり、実施形態にかかるＱＭＦの処理において用いられるメタデータとは、登録メタデータ３ｃと、ＡＳｎｏｒｍ用の不特定多数話者メタデータ４ｄと、評価メタデータ６ｃと、登録話者表現ベクトル３ｂ及び評価話者表現ベクトル６ｂのそれぞれの不特定多数話者とのスコア平均であるＱＭＦ用のパラメータと、を含む。

　その後、実行部１０２は、Ｓ２０１の処理で算出した話者照合のスコアとしてのＣｏｓ類似度を補正して補正スコアを算出する（Ｓ２０９）。具体的には、実行部１０２は、Ｃｏｓ類似度と、Ｓ２０８の処理で算出したＱＭＦ用のパラメータを含むメタデータと、を学習済みＱＭＦモデル５に入力する。また、実行部１０２は、Ｃｏｓ類似度及びメタデータの入力に応じた学習済みＱＭＦモデル５の出力を、補正スコア（類似度）として取得する。

　図６は、図４のＣＭＦの処理の一例について説明するための図である。ＣＭＦの処理において実行部１０２は、時間ごとの登録音声３ａの特徴量、すなわち時間ごとの登録話者表現ベクトル３ｂのばらつきを示すＣＭＦ値を算出する（Ｓ３０１）。同様に、実行部１０２は、時間ごとの評価音声６ａの特徴量、すなわち時間ごとの評価話者表現ベクトル６ｂのばらつきを示すＣＭＦ値を算出する（Ｓ３０２）。そして、実行部１０２は、算出したＣＭＦ値を補正係数として用いて、ＱＭＦの処理で補正された類似度（補正スコア）をスケーリングして補正することにより、補正スコア（類似度）を算出する。

　なお、ＱＭＦの処理やＡＳｎｏｒｍの処理に先立ってＣＭＦの処理が実行される場合、実行部１０２は、話者照合のスコアとして、登録話者表現ベクトル３ｂ及び評価話者表現ベクトル６ｂのＣｏｓ類似度を算出した後、ＣＭＦ値を用いて補正する。

　図７は、図４のＡＳｎｏｒｍの処理の一例について説明するための図である。

　ＡＳｎｏｒｍの処理において実行部１０２は、登録音声３ａから抽出された登録話者表現ベクトル３ｂと、評価音声６ａから抽出された評価話者表現ベクトル６ｂと、のＣｏｓ類似度（話者照合のスコア）を算出し、算出したＣｏｓ類似度をＱＭＦの処理及びＣＭＦの処理で補正する（Ｓ４０１）。このＳ４０１の処理は、図４のＳ１０１～Ｓ１０２の処理に対応する。つまり、本ステップの処理は、ＱＭＦの処理及びＣＭＦの処理で補正された類似度（補正スコア）を取得する処理であり得る。

　また、実行部１０２は、登録話者表現ベクトル３ｂと、ＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃと、を入力としてＱＭＦの処理及びＣＭＦの処理を実行し、各類似度を算出する（Ｓ４０２）。つまり、実行部１０２は、評価話者表現ベクトル６ｂに代えてＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃを用いて図５のＱＭＦの処理を実行する。また、実行部１０２は、評価音声６ａに代えてＡＳｎｏｒｍ用の不特定多数話者音声４ａを用いて図６のＣＭＦの処理を実行する。

　同様に、実行部１０２は、評価話者表現ベクトル６ｂと、ＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃと、を入力としてＱＭＦの処理及びＣＭＦの処理を実行し、各類似度を算出する（Ｓ４０３）。つまり、実行部１０２は、登録話者表現ベクトル３ｂに代えてＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃを用いて図５のＱＭＦの処理を実行する。また、実行部１０２は、登録音声３ａに代えてＡＳｎｏｒｍ用の不特定多数話者音声４ａを用いて図６のＣＭＦの処理を実行する。

　そして、実行部１０２は、例えば図５のＳ２０４の処理と同様にして、登録話者表現ベクトル３ｂと似ているＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃを、評価話者表現ベクトル６ｂと比較した場合のＣｏｓ類似度を選別するデータ選別を行う（Ｓ４０４）。また、実行部１０２は、例えば図５のＳ２０５の処理と同様にして、評価話者表現ベクトル６ｂと似ているＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃを、登録話者表現ベクトル３ｂと比較した場合のＣｏｓ類似度を選別するデータ選別を行う（Ｓ４０５）。

　また、実行部１０２は、データ選別後のＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃの登録話者表現ベクトル３ｂに対するＣｏｓ類似度の平均値及び分散値を算出する（Ｓ４０６）。同様に、実行部１０２は、データ選別後のＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃの評価話者表現ベクトル６ｂに対するＣｏｓ類似度の平均値及び分散値を算出する（Ｓ４０７）。

　そして、実行部１０２は、ＱＭＦの処理及びＣＭＦの処理で補正された登録話者表現ベクトル３ｂ及び評価話者表現ベクトル６ｂのＣｏｓ類似度（補正スコア）を、登録話者表現ベクトル３ｂ及び評価話者表現ベクトル６ｂのそれぞれに対するＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃのＣｏｓ類似度の平均値及び分散値を用いて正規化（補正）して補正スコアを算出する（Ｓ４０８）。

　以上説明したように、実施形態にかかる話者照合装置１０は、複数のスコア補正技術を組み合わせて話者照合のスコアを補正する。

　図８は、第１の実施形態にかかるスコア補正による話者照合の精度向上について説明するための図である。

　図８において、「ＢＥ１」は、一つ目に実行される後処理（ＢＥ）を示す。同様に、「ＢＥ２」及び「ＢＥ３」は、それぞれ、二つ目及び三つ目に実行される後処理を示す。また、「ｍｉｎＣ」及び「ＥＥＲ」のそれぞれは、話者照合の性能を測る指標であり、小さいほど性能が高い。「ｍｉｎＣ」は、ｍｉｎＤＣＦとも呼ばれ、米国のＮＩＳＴ（Ｎａｔｉｏｎａｌ　Ｉｎｓｔｉｔｕｔｅ　ｏｆ　Ｓｔａｎｄａｒｄｓ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ）　ＳＲＥ（Ｓｐｅａｋｅｒ　Ｒｅｃｏｇｎｉｔｉｏｎ　Ｅｖａｌｕａｔｉｏｎ）が開催する話者照合のコンペティションにおいてシステムの評価に用いられる指標である。また、「ＥＥＲ」は、生体認証システムの評価に用いられる、等価エラー率と呼ばれる指標である。この「ＥＥＲ」は、認証において登録された人物（本人）を誤って登録された人物ではない他人と判定した割合を示す本人棄却率（ＦＲＲ：Ｆａｌｓｅ　Ｒｅｊｅｃｔｉｏｎ　Ｒａｔｅ）と、認証において他人を誤って登録された本人と判定した割合を示す他人受入率（ＦＡＲ：Ｆａｌｓｅ　Ａｃｃｅｐｔａｎｃｅ　Ｒａｔｅ）と、が等しくなる値である。

　具体的には、実施形態にかかる話者照合装置１０は、ＱＭＦの処理において、発話長やＳＮといった品質指標に加えて、不特定多数話者データ４とのスコア平均をメタデータとして用いるように構成されている。そして、実施形態にかかる話者照合装置１０は、ＱＭＦの処理、ＣＭＦの処理及びＡＳｎｏｒｍの処理の三つのスコア補正処理（後処理：ＢＥ）を、少なくともＡＳｎｏｒｍの処理に先立ってＱＭＦの処理が適用される順序で組み合わせて実行する。

　一例として、実施形態にかかる話者照合装置１０は、図８の１行目に示すように、ＱＭＦの処理、ＣＭＦの処理、ＡＳｎｏｒｍの処理の順に、三つのスコア補正手法を適用して組み合わせる。

　一例として、実施形態にかかる話者照合装置１０は、図８の２行目に示すように、ＱＭＦの処理、ＡＳｎｏｒｍの処理、ＣＭＦの処理の順に、三つのスコア補正手法を適用して組み合わせる。

　一例として、実施形態にかかる話者照合装置１０は、図８の３行目に示すように、ＣＭＦの処理、ＱＭＦの処理、ＡＳｎｏｒｍの処理の順に、三つのスコア補正手法を適用して組み合わせる。

　これらの構成によれば、ＡＳｎｏｒｍの処理の後にＱＭＦの処理が適用される場合（４～６行目）と比べて「ｍｉｎＣ」及び「ＥＥＲ」の値を小さく、すなわち話者照合の性能を向上させることができる。したがって、実環境において変動し得る話者認識のスコアを適切に補正することができる。

　以下、本開示の他の実施形態について図面を参照しつつ説明する。なお、以下の各実施形態にかかる説明では、主として相違点について説明し、上述した内容と重複する内容については適宜記載を省略する。

（第２の実施形態）
　図９は、第２の実施形態にかかるＡＳｎｏｒｍの処理の一例について説明するための図である。ここでは、主として図７に例示するＡＳｎｏｒｍの処理との相違点について説明する。

　本実施形態にかかるＡＳｎｏｒｍの処理において実行部１０２は、Ｓ４０１の処理の後、登録話者表現ベクトル３ｂと、ＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃと、を入力としてＱＭＦの処理及びＣＭＦの処理を実行することに代えて、登録話者表現ベクトル３ｂと、ＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃと、のＣｏｓ類似度（話者照合のスコア）を算出する（Ｓ５０１）。

　同様に、本実施形態にかかるＡＳｎｏｒｍの処理において実行部１０２は、評価話者表現ベクトル６ｂと、ＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃと、を入力としてＱＭＦの処理及びＣＭＦの処理を実行することに代えて、評価話者表現ベクトル６ｂと、ＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃと、のＣｏｓ類似度（話者照合のスコア）を算出する（Ｓ５０２）。

　そして、実行部１０２は、Ｓ５０１の処理で算出されたＣｏｓ類似度をもとに、登録話者表現ベクトル３ｂと似ているＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃを、評価話者表現ベクトル６ｂと比較した場合のＣｏｓ類似度を選別するデータ選別を行う（Ｓ４０４）。また、実行部１０２は、Ｓ５０２の処理で算出されたＣｏｓ類似度をもとに、評価話者表現ベクトル６ｂと似ているＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃを、登録話者表現ベクトル３ｂと比較した場合のＣｏｓ類似度を選別するデータ選別を行う（Ｓ４０５）。

　なお、図９は、少なくともＱＭＦの処理の後に適用されるＡＳｎｏｒｍの処理において、不特定多数話者表現ベクトル４ｃとのスコア計算時にＱＭＦの処理及びＣＭＦの処理を除外する場合を例示するが、これに限らない。少なくともＱＭＦの処理の後に適用されるＡＳｎｏｒｍの処理においては、少なくともＱＭＦの処理が不特定多数話者表現ベクトル４ｃとのスコア計算時に除外されればよく、ＣＭＦの処理については除外されなくてもよい。

　上述したように、ＱＭＦの処理において、発話長やＳＮといった品質指標に加えて、不特定多数話者データ４とのスコア平均をメタデータとして用いる場合、ＡＳｎｏｒｍの処理に先立ってＱＭＦの処理を適用することにより、話者照合の性能を向上させることができる。このような中、不特定多数話者（ｉｍｐｏｓｔｅｒ）データは、多い時には数万個規模の発話データを含む。また、ＡＳｎｏｒｍの処理では、登録・評価データとｉｍｐｏｓｔｅｒデータとの類似度を算出するために、ＱＭＦの処理及びＣＭＦの処理が適用されていた。このため、ＱＭＦの処理をＡＳｎｏｒｍの処理に先立って適用する場合、ＡＳｎｏｒｍの処理においては、ＱＭＦの処理内でＱＭＦ用の不特定多数話者表現ベクトル４ｂと、ＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃとの類似度計算が発生し、すなわち数万個×数万個の規模の類似度計算が行われるために演算量が膨大になるという問題があった。

　これに対して、本実施形態にかかる話者照合装置１０は、ＡＳｎｏｒｍの処理において、不特定多数話者表現ベクトル４ｃとのスコア計算時に少なくともＱＭＦの処理を除外するように構成されている。この構成によれば、少なくともＱＭＦの処理の後に適用されるＡＳｎｏｒｍの処理にかかる演算量を削減することができる。

　図１０は、第２の実施形態にかかるスコア補正による話者照合の精度向上について説明するための図である。図１０に示すように、ＡＳｎｏｒｍの処理において不特定多数話者表現ベクトル４ｃとのスコア計算時に少なくともＱＭＦの処理を除外して演算量の低減を図った場合であっても、発話長やＳＮといった品質指標に加えて、不特定多数話者データ４とのスコア平均をメタデータとして用いるＱＭＦの処理をＡＳｎｏｒｍの処理に先立って適用することにより、話者照合の性能を向上させることができる。

　一例として、本実施形態にかかる話者照合装置１０は、図１０の１行目に示すように、ＱＭＦの処理、ＣＭＦの処理、ＡＳｎｏｒｍの処理の順に、三つのスコア補正手法を適用して組み合わせる。

　一例として、本実施形態にかかる話者照合装置１０は、図１０の２行目に示すように、ＱＭＦの処理、ＡＳｎｏｒｍの処理、ＣＭＦの処理の順に、三つのスコア補正手法を適用して組み合わせる。

　このように、本実施形態にかかる構成によれば、少なくともＱＭＦの処理の後にＡＳｎｏｒｍの処理を適用することにより照合精度を向上しつつ、少なくともＱＭＦの処理の後に適用されるＡＳｎｏｒｍの処理についての演算量を削減することができる。

（第３の実施形態）
　図１１は、第３の実施形態にかかるＡＳｎｏｒｍの処理の一例について説明するための図である。ここでは、主として図１０に例示するＡＳｎｏｒｍの処理との相違点について説明する。

　本実施形態にかかるＡＳｎｏｒｍの処理において実行部１０２は、Ｓ４０６の処理で算出された、ＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃの登録話者表現ベクトル３ｂに対するＣｏｓ類似度の平均値及び分散値に対して、ＱＭＦの処理及びＣＭＦの処理を適用する（Ｓ６０１）。同様に、実行部１０２は、Ｓ４０７の処理で算出された、ＡＳｎｏｒｍ用の不特定多数話者表現ベクトル４ｃの評価話者表現ベクトル６ｂに対するＣｏｓ類似度の平均値及び分散値に対して、ＱＭＦの処理及びＣＭＦの処理を適用する（Ｓ６０２）。

　そして、実行部１０２は、ＱＭＦの処理及びＣＭＦの処理で補正された登録話者表現ベクトル３ｂ及び評価話者表現ベクトル６ｂのＣｏｓ類似度（補正スコア）を、ＱＭＦの処理及びＣＭＦの処理で補正されたＣｏｓ類似度の平均値及び分散値を用いて正規化（補正）することにより、補正スコアを算出する（Ｓ４０８）。

　なお、図１１は、少なくともＱＭＦの処理の後に適用されるＡＳｎｏｒｍの処理において、ＱＭＦの処理及びＣＭＦの処理の前に不特定多数話者表現ベクトル４ｃについてのＣｏｓ類似度の平均・分散を計算して近似することで演算量を削減する場合を例示するが、これに限らない。少なくともＱＭＦの処理の後に適用されるＡＳｎｏｒｍの処理においては、少なくともＱＭＦの処理の前に不特定多数話者表現ベクトル４ｃについてのＣｏｓ類似度の平均・分散を計算して近似すればよく、ＣＭＦの処理は、不特定多数話者表現ベクトル４ｃについてのＣｏｓ類似度の平均・分散を計算する前に実施されてもよい。

　なお、本実施形態にかかるＡＳｎｏｒｍの処理において、データ選別の処理で選別されたデータ数は、元のデータ数に等しいとする。また、本実施形態にかかるＡＳｎｏｒｍの処理において、ＱＭＦの処理で用いるメタデータとスコアの値とは独立であるとする。

　このように、本実施形態にかかる話者照合装置１０は、不特定多数話者表現ベクトル４ｃとそのメタデータの平均・分散に対してＱＭＦの処理及びＣＭＦの処理を実施するように構成されている。ここで、ＱＭＦの処理とＣＭＦの処理とは、いずれも線形変換である。このため、ＱＭＦの処理及びＣＭＦの処理の後に平均・分散を計算する場合であっても、ＱＭＦの処理及びＣＭＦの処理の前に平均・分散を計算する場合であっても、その計算結果、すなわち補正スコアの値は同程度である。したがって、本実施形態にかかる構成であっても、少なくともＱＭＦの処理の後に適用されるＡＳｎｏｒｍの処理についての演算量を削減することができる。

　なお、上述の各実施形態において、「Ａであるか」とは、「Ａである」ことと、「Ａではない」ことと、のうちの少なくともいずれかを言うものとする。つまり、上述の各実施形態において、「Ａであるか」の判定は、「Ａである」ことの判定により実現されてもよいし、「Ａではない」ことの判定により実現されてもよいし、これらの双方の判定により実現されてもよい。

　上述の各実施形態の話者照合装置１０で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、ＦＤ、ＣＤ－Ｒ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体（Ｃｏｍｐｕｔｅｒ　Ｐｒｏｇｒａｍ　Ｐｒｏｄｕｃｔ）に記録されて提供されてもよい。

　また、上述の各実施形態の話者照合装置１０で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上述の各実施形態の話者照合装置１０で実行されるプログラムをインターネット等のネットワーク経由で提供又は配布するように構成してもよい。

　また、上述の各実施形態の話者照合装置１０で実行されるプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

　以上説明した少なくとも１つの実施形態によれば、実環境において変動し得る話者認識のスコアを適切に補正することができる。

　本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これらの実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これらの実施形態やその変形は、発明の範囲や要旨に含まれると同様に、請求の範囲に記載された発明とその均等の範囲に含まれるものである。

　１　話者照合スコア補正システム
　１０　話者照合装置
　１０１　入出力部
　１０２　実行部
　１０３　記憶部
　３　登録話者データ
　３ａ　登録音声
　３ｂ　登録話者表現ベクトル（ｘｖｅｃｔｏｒ）
　３ｃ　登録メタデータ
　４　不特定多数話者（Ｉｍｐｏｓｔｅｒ）データ
　４ａ　ＡＳｎｏｒｍ用の不特定多数話者音声
　４ｂ　ＱＭＦ用の不特定多数話者表現ベクトル
　４ｃ　ＡＳｎｏｒｍ用の不特定多数話者表現ベクトル
　４ｄ　ＡＳｎｏｒｍ用の不特定多数話者メタデータ
　５　学習済みＱＭＦモデル
　６ａ　評価音声
　６ｂ　評価話者表現ベクトル
　６ｃ　評価メタデータ
　８　情報処理装置
　８１　プロセッサ
　８２　主記憶装置
　８３　補助記憶装置
　８４　Ｉ／Ｆ

Claims

　少なくとも一つのプロセッサを備える情報処理装置において前記少なくとも一つのプロセッサが実行する情報処理方法であって、
　登録した登録話者の音声である登録音声に関する登録話者データを記憶し、
　評価対象の話者の音声である評価音声を取得し、
　前記登録音声の特徴量である登録話者表現ベクトルと、前記評価音声の特徴量である評価話者表現ベクトルと、の間の類似性を示すスコアを算出し、
　少なくとも２以上のスコア補正処理を組み合わせて前記スコアを補正し、
　補正された前記スコアと事前に設定された閾値とを比較して前記評価対象の話者が前記登録話者に一致するか否かを判定し、
　判定結果を示す情報を出力し、
　前記少なくとも２以上のスコア補正処理は、前記登録音声及び前記評価音声の品質指標を含むメタデータの音声間の相互作用のモデルを用いて前記スコアを補正する第１の処理と、不特定多数話者の音声である不特定多数話者音声の不特定多数話者表現ベクトルとの照合結果をもとに話者照合のスコアを補正する第２の処理と、を含み、
　少なくとも前記第１の処理は、前記第２の処理より前に適用される、
　情報処理方法。
　前記少なくとも２以上のスコア補正処理は、各音声の時間ごとの話者表現ベクトルのばらつきに基づいて前記スコアを補正する第３の処理をさらに含む、
　請求項１に記載の情報処理方法。
　前記メタデータは、前記不特定多数話者音声の前記第１の処理に用いる不特定多数話者表現ベクトルに基づく前記スコアの平均値を含む、
　請求項１に記載の情報処理方法。
　前記第１の処理は、
　前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれと、前記第１の処理に用いる不特定多数話者表現ベクトルと、の前記スコアを算出し、
　前記登録話者表現ベクトルとの前記スコアが高い前記第１の処理に用いる不特定多数話者表現ベクトルを、前記評価話者表現ベクトルと比較した場合の前記スコアを選別し、
　前記評価話者表現ベクトルとの前記スコアが高い前記第１の処理に用いる不特定多数話者表現ベクトルを、前記登録話者表現ベクトルと比較した場合の前記スコアを選別し、
　前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれに対する前記第１の処理に用いる不特定多数話者表現ベクトルの前記スコアの平均値を算出する、
　請求項３に記載の情報処理方法。
　前記第２の処理は、
　前記登録話者表現ベクトルと、前記第２の処理に用いる不特定多数話者表現ベクトルと、を入力とした前記第１の処理と、
　前記評価話者表現ベクトルと、前記第２の処理に用いる不特定多数話者表現ベクトルと、を入力とした前記第１の処理と、を含み、
　前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれと、前記２の処理に用いる不特定多数話者表現ベクトルと、の前記スコアを算出し、
　前記登録話者表現ベクトルとの前記スコアが高い前記第２の処理に用いる不特定多数話者表現ベクトルを、前記評価話者表現ベクトルと比較した場合の前記スコアを選別し、
　前記評価話者表現ベクトルとの前記スコアが高い前記第２の処理に用いる不特定多数話者表現ベクトルを、前記登録話者表現ベクトルと比較した場合の前記スコアを選別し、
　前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれに対する前記第２の処理に用いる不特定多数話者表現ベクトルの前記スコアの平均値及び分散値を算出し、
　少なくとも前記第１の処理で補正された前記スコアを、算出した前記平均値及び前記分散値を用いて正規化する、
　請求項１から請求項４のうちのいずれか一項に記載の情報処理方法。
　前記第２の処理は、
　前記登録話者表現ベクトルと、前記第２の処理に用いる不特定多数話者表現ベクトルと、の前記スコアを算出し、
　前記評価話者表現ベクトルと、前記第２の処理に用いる不特定多数話者表現ベクトルと、の前記スコアを算出し、
　前記登録話者表現ベクトルとの前記スコアが高い前記第２の処理に用いる不特定多数話者表現ベクトルを、前記評価話者表現ベクトルと比較した場合の前記スコアを選別し、
　前記評価話者表現ベクトルとの前記スコアが高い前記第２の処理に用いる不特定多数話者表現ベクトルを、前記登録話者表現ベクトルと比較した場合の前記スコアを選別し、
　前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれに対する前記第２の処理に用いる不特定多数話者表現ベクトルの前記スコアの平均値及び分散値を算出し、
　少なくとも前記第１の処理で補正された前記スコアを、算出した前記平均値及び前記分散値を用いて正規化する、
　請求項１から請求項４のうちのいずれか一項に記載の情報処理方法。
　前記第２の処理は、
　算出した前記平均値及び前記分散値に対する前記第１の処理を含み、
　少なくとも前記第１の処理で補正された前記スコアを、前記第１の処理を適用した前記平均値及び前記分散値を用いて正規化する、
　請求項６に記載の情報処理方法。
　前記第１の処理、前記第３の処理、前記第２の処理の順に適用される、
　請求項２に記載の情報処理方法。
　登録した登録話者の音声である登録音声に関する登録話者データを記憶するメモリと、
　評価対象の話者の音声である評価音声を取得し、
　前記登録音声の特徴量である登録話者表現ベクトルと、前記評価音声の特徴量である評価話者表現ベクトルと、の間の類似性を示すスコアを算出し、
　少なくとも２以上のスコア補正処理を組み合わせて前記スコアを補正し、
　補正された前記スコアと事前に設定された閾値とを比較して前記評価対象の話者が前記登録話者に一致するか否かを判定し、
　判定結果を示す情報を出力するように構成された少なくとも一つのプロセッサと、を備え、
　前記少なくとも２以上のスコア補正処理は、前記登録音声及び前記評価音声の品質指標を含むメタデータの音声間の相互作用のモデルを用いて前記スコアを補正する第１の処理と、不特定多数話者の音声である不特定多数話者音声の不特定多数話者表現ベクトルとの照合結果をもとに話者照合のスコアを補正する第２の処理と、を含み、
　少なくとも前記第１の処理は、前記第２の処理より前に適用される、
　情報処理装置。
　登録した登録話者の音声である登録音声に関する登録話者データを記憶し、
　評価対象の話者の音声である評価音声を取得し、
　前記登録音声の特徴量である登録話者表現ベクトルと、前記評価音声の特徴量である評価話者表現ベクトルと、の間の類似性を示すスコアを算出し、
　少なくとも２以上のスコア補正処理を組み合わせて前記スコアを補正し、
　補正された前記スコアと事前に設定された閾値とを比較して前記評価対象の話者が前記登録話者に一致するか否かを判定し、
　判定結果を示す情報を出力することをコンピュータに実行させるためのプログラムであって、
　前記少なくとも２以上のスコア補正処理は、前記登録音声及び前記評価音声の品質指標を含むメタデータの音声間の相互作用のモデルを用いて前記スコアを補正する第１の処理と、不特定多数話者の音声である不特定多数話者音声の不特定多数話者表現ベクトルとの照合結果をもとに話者照合のスコアを補正する第２の処理と、を含み、
　少なくとも前記第１の処理は、前記第２の処理より前に適用される、
　プログラム。