WO2021010056A1

WO2021010056A1 - マイクユニット

Info

Publication number: WO2021010056A1
Application number: PCT/JP2020/022616
Authority: WO
Inventors: 山中祥史; 窪田昭吾
Original assignee: Hosiden Corp
Current assignee: Hosiden Corp
Priority date: 2019-07-17
Filing date: 2020-06-09
Publication date: 2021-01-21
Anticipated expiration: 2022-01-17
Also published as: EP4002356A1; CN114080641B; EP4002356A4; JPWO2021010056A1; US12057127B2; CN114080641A; US20220415330A1; JP7462634B2

Abstract

マイクユニット１は、音声を音データとして取得する音データ取得部１１と、音データから特徴点を抽出した照合用音データを登録する音データ登録部１２と、第１マイクロフォン１０に入力された音声を評価用音データとして取得する評価用音データ取得部１３と、照合用音データと評価用音データから抽出した特徴点とに基づいて、評価用音データに基づく音声の発声者が照合用音データに基づく音声の発声者であるか否かの照合を行う照合部１４と、照合部１４の照合結果を出力する照合結果出力部１５とを備える。

Description

マイクユニット

　本発明は、第１マイクロフォンに入力された音声が、所期の発声者による音声であるか否かを判定可能なマイクユニットに関する。

　従来、例えば電化製品に対する指示を音声により行う技術が利用されている。このような技術では音声認識が行われる。音声認識に係る技術として、例えば下記に出典を示す特許文献１に記載のものがある。

　特許文献１には、音声対話システムについて記載されている。この音声対話システムは、音声対話装置と音声認識サーバとから構成される。音声対話装置は、音声入力手段に入力された音声を認識し、音声入力手段に入力された音声を音声認識サーバに送信する。音声認識サーバは、音声対話装置から受信した音声を認識する。音声対話装置は、当該音声対話装置における認識結果に基づく応答を出力した後、音声対話装置における認識結果と音声認識サーバにおける認識結果との差分に基づく応答を出力するように構成されている。

特開２０１８－４５１９０号公報

　特許文献１に記載の技術は、音声対話装置における音声認識処理だけでなく、音声認識サーバにおいても音声認識処理を行っている。このため、音声認識を行うにあたって通信を行う必要があり、通信インフラが整備されていない状況下では利用することができない。また、特許文献１に記載の技術は、音声認識を行う技術であって、音声の発声者を識別することまで想定されていない。

　そこで、認識処理にネットワークを必要とせず、音声の発声者を識別可能なマイクユニットが求められる。

　本発明に係るマイクユニットの特徴構成は、第１マイクロフォンに入力された音声が、所期の発声者による音声であるか否かを判定可能なマイクユニットであって、音声を音データとして取得する音データ取得部と、前記音データから特徴点を抽出した照合用音データを登録する音データ登録部と、前記第１マイクロフォンに入力された音声を評価用音データとして取得する評価用音データ取得部と、前記照合用音データと前記評価用音データから抽出した特徴点とに基づいて、前記評価用音データに基づく音声の発声者が前記照合用音データに基づく音声の発声者であるか否かの照合を行う照合部と、前記照合部の照合結果を出力する照合結果出力部と、を備え、前記照合用音データは、前記第１マイクロフォンが搭載された装置とは異なる装置によって作成され、前記第１マイクロフォンが搭載された装置と前記異なる装置とは無線通信により前記照合用音データの受け渡しが行われる点にある。

　このような特徴構成とすれば、照合用のサーバを備えることなく、照合を行うことができる。すなわち所謂ローカル型認識処理であるので、セキュリティ上、安全に照合を行うことが可能となる。また、容易に予め登録した音声の発声者を特定することが可能となる。

　また、前記照合部がスリープ状態である場合に、前記評価用音データ取得部による前記評価用音データの取得をトリガとして前記スリープ状態を終了すると好適である。

　このような構成とすれば、消費電力を低減できる。

　また、前記音データ取得部が取得する音データは、前記第１マイクロフォンが搭載された装置とは異なる装置に設けられた第２マイクロフォンに入力された音声であって、前記第１マイクロフォン及び前記第２マイクロフォンの双方への音声の入力前に、前記第１マイクロフォンの周波数特性及び前記第２マイクロフォンの周波数特性を評価する評価部と、前記第１マイクロフォン及び前記第２マイクロフォンのうちの一方の周波数特性を他方の周波数特性に一致するように補正する補正部と、を更に備えると好適である。

　このような構成とすれば、第１マイクロフォンの周波数特性と第２マイクロフォンの周波数特性とを同じようにすることで、第１マイクロフォンと第２マイクロフォンとで同じユーザが音声を入力した場合の照合率を高めることができる。

　また、前記照合用音データが登録された後であって、前記評価用音データが取得される前に、前記第１マイクロフォンで前記照合用音データに係る音声を発した発声者の音声を試験用音データとして取得する試験用音データ取得部と、前記試験用音データと前記照合用音データとに基づいて、前記照合に用いる照合用パラメータを変更しながら前記試験用音データに基づく前記発声者の照合率を算定する算定部と、を更に備え、前記照合部は、前記算定部により算定された前記照合率のうち、最も高い照合率である時の前記照合用パラメータに基づいて前記照合を行うと好適である。

　一般的に、誤認率を下げると、照合率も下がるが、中には誤認率だけ下げて、照合率が下がらない照合用パラメータもある。そこで、本構成のように、照合率を算定しながら照合用パラメータを見つけることで、適切な照合用パラメータを設定できる。

　また、前記照合用パラメータは、前記試験用音データ及び前記照合用音データのうちの少なくともいずれか一方を増幅する増幅率であると好適である。

　このような構成とすれば、例えば、第１マイクロフォン及び第２マイクロフォンのうちの少なくともいずれか一方の入力レンジを変更することで、照合率を高めることが可能となる。

　また、前記第１マイクロフォンに対する前記評価用音データに基づく音声の入力時に、当該第１マイクロフォンのパラメータを前記照合用パラメータに基づいて自動で変更するパラメータ変更部を、更に備えると好適である。

　このような構成とすれば、第１マイクロフォンから入力された音声の音声レベルを自動的に抑え、照合率が向上するレベルに変更できる。したがって、自動的に照合率を向上することができる。また、例えば一定の時間だけ記録し、その時間内の平均の音声レベルに基づき、自動で音声レベルを変更するように構成することもできる。

　また、前記マイクユニットは、前記照合部の照合結果に基づいて、前記第１マイクロフォンに入力された音声の発声者を識別すると好適である。

　このような構成とすれば、複数のユーザで利用するマイクユニットに対して入力された音声の発声者を識別できるので、利便性を向上できる。

　また、前記第１マイクロフォンに入力された音声の発声内容を推定し、推定された内容に基づき前記第１マイクロフォンが搭載された装置に対して操作指令を行うと好適である。

　このような構成とすれば、操作指令に基づいて、第１マイクロフォンが搭載された装置の動作を制御することが可能となる。したがって、例えばハンズフリーで第１マイクロフォンが搭載された装置の動作を制御できるので、利便性を向上することが可能となる。

第１の実施形態に係るマイクユニットの構成を示す図である。第２の実施形態に係るマイクユニットの構成を示す図である。第３の実施形態に係るマイクユニットの構成を示す図である。マイクユニットの適用例を示す図である。

１．第１の実施形態
　本発明に係るマイクユニットは、入力された音声が所期の発声者による音声であるか否かの判定を行うことができるように構成されている。以下、本実施形態のマイクユニット１について説明する。

　図１は、本実施形態に係るマイクユニット１の構成を模式的に示すブロック図である。図１に示されるように、マイクユニット１は、第１マイクロフォン１０、音データ取得部１１、音データ登録部１２、評価用音データ取得部１３、照合部１４、照合結果出力部１５の各機能部を備える。これらの各機能部は上述した判定に係る処理を行うために、ＣＰＵを中核部材としてハードウェア又はソフトウェア或いはその両方で構築されている。

　第１マイクロフォン１０は音声が入力される。第１マイクロフォン１０はマイク素子であって、特に構成は限定されるものではない。例えばエレクトレットコンデンサマイク（ＥＣＭ）や、アナログＭＥＭＳ（Micro-Electro-Mechanical System）マイクや、デジタルＭＥＭＳ（Micro-Electro-Mechanical System）マイク等のうち、少なくとも一つを用いて構成すると良い。第１マイクロフォン１０に入力された音声は、第１マイクロフォン１０により電気信号である音データに変換される。

　音データ取得部１１は、音声を音データとして取得する。本実施形態では、音データ取得部１１が取得する音データは、第１マイクロフォン１０が搭載された装置とは異なる装置２に設けられた第２マイクロフォン２Ａに入力された音声である。第１マイクロフォン１０が搭載された装置とは、本実施形態ではマイクユニット１である。したがって、第２マイクロフォン２Ａはマイクユニット１とは各別に（別体で）設けられる。第２マイクロフォン２Ａも第１マイクロフォン１０と同様に、例えばエレクトレットコンデンサマイク（ＥＣＭ）や、アナログＭＥＭＳ（Micro-Electro-Mechanical System）マイクや、デジタルＭＥＭＳ（Micro-Electro-Mechanical System）マイク等のうち、少なくとも一つを用いて構成すると良い。第２マイクロフォン２Ａに入力された音声は、第２マイクロフォン２Ａにより電気信号である音データに変換される。音データ取得部１１は、第２マイクロフォン２Ａが変換して生成した音データを取得する。

　音データ登録部１２は、第２マイクロフォン２Ａが生成した音データから特徴点を抽出した照合用音データを登録する。第２マイクロフォン２Ａが生成した音データとは、上述したように第２マイクロフォン２Ａに入力された音声を変換して（データ化して）生成されたものである。特徴点とは、電気信号（音データ）における特徴であって、例えば周期やピーク値や半値幅等が相当する。したがって、照合用音データは、第２マイクロフォン２Ａに入力された音声を変換して生成された電気信号の特徴が抽出されたものが相当する。このような照合用音データは、本マイクユニット１が、第１マイクロフォン１０に入力された音声が所期の発声者による音声であるか否かを判定する機能を実現するためのマスター音データにあたり、音データ登録部１２にはこのような照合用音データが記録される。

　照合用音データは、第１マイクロフォン１０が搭載された装置（マイクユニット１）とは異なる装置によって作成される。第１マイクロフォン１０が搭載された装置とは異なる装置とは、マイクユニット１とは異なる装置である。具体的には、第２マイクロフォン２Ａが搭載される装置２や、マイクユニット１及び装置２以外の装置３が相当する。本実施形態では、照合用音データは装置３に設けられる照合用音データ生成部３Ａにより生成される。照合用音データの受け渡しは、第１マイクロフォン１０が搭載された装置と異なる装置とは無線通信によりが行われる。無線通信とは、例えばＷｉ-Ｆｉ（登録商標）のようなＬＡＮ通信や、Ｂｌｕｅｔｏｏｔｈ（登録商標）のような近距離無線通信が相当する。したがって、本実施形態ではマイクユニット１は、このような無線通信を介して装置３（装置３の照合用音データ生成部３Ａ）から照合用音データが伝達される。なお、第２マイクロフォン２Ａが搭載される装置２において、照合用音データを生成する場合には、照合用音データ生成部３Ａが装置２に含まれるように構成すると良い。

　マイクユニット１及び装置２以外の装置３が照合用音データを生成する場合には、音データ取得部１１が当該マイクユニット１及び装置２以外の装置３に無線通信により音データを伝達し、マイクユニット１及び装置２以外の装置３において作成された照合用音データを無線通信により音データ登録部１２が取得するように構成すると良い。

　また、装置２が照合用音データを生成する場合には、音データ取得部１１が装置２に無線通信により音データを伝達し、装置２において作成された照合用音データを無線通信により音データ登録部１２が取得するように構成しても良いし、音データ取得部１１を装置２に備え、装置２において音データ取得部１１により取得された音データに基づいて作成された照合用音データを無線通信により音データ登録部１２が取得するように構成しても良い。

　例えば、周知の所謂スマートスピーカのようなデバイスでは、マイクロフォンに入力された音声を電子化し、電子化した音声データがインターネット回線を通じて外部デバイス（サーバ）に送信される。一方、本実施形態に係るマイクユニット１では、上述したように照合用音データ生成部３Ａにより、音声データから特徴点を抽出して生成された照合用音データが、ペアリングされたデバイスに無線通信を介して送信される。

　評価用音データ取得部１３は、第１マイクロフォン１０に入力された音声を評価用音データとして取得する。上述したように、第１マイクロフォン１０に入力された音声は、第１マイクロフォン１０により電気信号である音データに変換される。この音データが評価用音データに相当する。したがって、評価用音データ取得部１３は、第１マイクロフォン１０に入力された音声を、当該第１マイクロフォン１０により電気信号である音データに変換して生成された評価用音データを取得する。

　照合部１４は、照合用音データと評価用音データから抽出した特徴点とに基づいて、評価用音データに基づく音声の発声者が照合用音データに基づく音声の発声者であるか否かの照合を行う。照合用音データは音データ登録部１２に登録され、記録されている。評価用音データは評価用音データ取得部１３により取得される。評価用音データから抽出した特徴点とは、電気信号である評価用音データの特徴であって、例えば周期やピーク値や半値幅等が相当する。このような特徴点は、照合用音データと同様に、マイクユニット１とは異なる装置で生成し、無線通信を介して伝達されるように構成することが可能である。もちろん、照合部１４が特徴点を抽出するように構成することも可能である。評価用音データに基づく音声とは、第１マイクロフォン１０に入力された音声であって、第１マイクロフォン１０により評価用音データに変換される音声である。照合用音データに基づく音声とは、本実施形態では第２マイクロフォン２Ａに入力された音声であって、第２マイクロフォン２Ａにより照合用音データに変換される音声である。

　したがって、照合部１４は、音データ登録部１２に記録されている照合用音データと評価用音データ取得部１３により取得される評価用音データから抽出した特徴点とに基づいて、第１マイクロフォン１０に入力された音声であって、第１マイクロフォン１０により評価用音データに変換される音声の発声者が、第２マイクロフォン２Ａに入力された音声であって、第２マイクロフォン２Ａにより照合用音データに変換される音声の発声者と同一人物であるか否かの照合を行う。

　このような照合は、例えば評価用音データと照合用音データとの特徴部分（上記「特徴点」に相当）を比較して一致点と相違点とを抽出し、一致点と相違点との割合から算定した一致度に基づき行うと良い。具体的には、一致度が予め設定された値よりも大きい場合には、評価用音データに変換された音声の発声者が、照合用音データに変換された音声の発声者と同一人物であると判定し、一致度が予め設定された値以下の場合には、評価用音データに変換された音声の発声者が、照合用音データに変換された音声の発声者と同一人物でないと判定することが可能である。もちろん、このような方法とは異なる方法（例えば公知の声紋解析等）により行うことも可能である。

　ここで、照合部１４による照合は演算処理を要することから照合部１４を常時、稼働状態とする場合には消費電力が増大する。そこで、照合部１４は照合を行う場合にのみ稼働状態にし、照合を行わない場合にはスリープ状態にすると好適である。係る場合、照合部１４がスリープ状態である場合に、例えば、評価用音データ取得部１３による評価用音データの取得をトリガとしてスリープ状態を終了すると良い。評価用音データ取得部１３による評価用音データの取得したことは、評価用音データ取得部１３による評価用音データの取得したことを示す情報を照合部１４に伝達することで示しても良いし、評価用音データを照合部１４に伝達することで示しても良い。また、第１マイクロフォン１０が音声を検出（Voice Active Detection）したことを示す情報を、評価用音データ取得部１３を介して照合部１４に伝達して示すように構成することも可能である。

　これにより、照合部１４が照合を行う場合にのみ照合部１４を稼働状態にできるので、他の状態にあっては消費電力を低減できる。このような構成は、スリープ時の照合部１４の動作周波数を、稼働時の動作周波数に比べて低く設定することで実現可能である。更に、このような互いに異なる動作周波数を実現するために、例えばスリープ時は照合部１４の外部からのクロック（外部クロック）により動作させ、稼働時は照合部１４で生成したクロック（内部クロック）により動作させることも可能である。

　あるいは、上記構成に代え、ユーザのボタン操作（スイッチ操作）に応じて、照合部１４がスリープ状態を解除するように構成することも可能である。

　照合結果出力部１５は、照合部１４の照合結果を出力する。照合部１４の照合結果とは、評価用音データに変換された音声の発声者が、照合用音データに変換された音声の発声者と同一人物であるか否かの判定結果である。すなわち、第１マイクロフォン１０に入力された音声の発声者が、第２マイクロフォン２Ａに入力された音声の発声者と同一人物であるか否かの判定結果である。照合結果出力部１５は、このような判定結果を表示装置に出力し、当該表示装置が表示しても良い。あるいは、このような判定結果をスピーカに出力し、当該スピーカが報知しても良い。更には、判定結果を他の制御装置に出力し、当該他の制御装置が制御に利用しても良い。

　例えば照合部１４の照合結果に基づいて、第１マイクロフォン１０に入力された音声の発声者を識別するように構成することも可能である。係る場合、発声者の識別結果をスピーカや表示装置で出力するように構成しても良い。更には、識別結果を他の制御装置に出力し、当該他の制御装置が制御に利用しても良い。

２．第２の実施形態
　次に、第２の実施形態について説明する。第２の実施形態に係るマイクユニット１は、上記第１の実施形態に係るマイクユニット１に、評価部２０及び補正部２１を備えている点が異なる。この点以外については、第１の実施形態と同様であるので、ここでは主に異なる点を中心に説明する。

　図２は、本実施形態に係るマイクユニット１の構成を模式的に示すブロック図である。図２に示されるように、本実施形態のマイクユニット１は、第１マイクロフォン１０、音データ取得部１１、音データ登録部１２、評価用音データ取得部１３、照合部１４、照合結果出力部１５、評価部２０、補正部２１の各機能部を備える。評価部２０及び補正部２１も、第１の実施形態で説明した他の各機能部と同様に、上述した判定に係る処理を行うために、ＣＰＵを中核部材としてハードウェア又はソフトウェア或いはその両方で構築されている。

　評価部２０は、第１マイクロフォン１０及び第２マイクロフォン２Ａの双方への音声の入力前に、第１マイクロフォン１０の周波数特性及び第２マイクロフォン２Ａの周波数特性を評価する。第１マイクロフォン１０及び第２マイクロフォン２Ａの双方への音声の入力前とは、第１マイクロフォン１０及び第２マイクロフォン２Ａの双方に対する音声の入力が完了する前である。

　すなわち、第１マイクロフォン１０及び第２マイクロフォン２Ａの双方への音声の入力前とは、第１マイクロフォン１０及び第２マイクロフォン２Ａの双方に対して音声が入力されていない状態と、第１マイクロフォン１０に対してのみ音声が入力されている状態と、第２マイクロフォン２Ａに対してのみ音声が入力されている状態とが該当し、第１マイクロフォン１０及び第２マイクロフォン２Ａのうちの少なくともいずれか一方に対して音声が入力されていない状態である。

　第１マイクロフォン１０の周波数特性及び第２マイクロフォン２Ａの周波数特性は、夫々のマイクロフォンについて予め規定されているので、このような周波数特性を記憶部（図示しない）に記憶しておいて評価部２０が取得しても良いし、評価部２０が実際に第１マイクロフォン１０や第２マイクロフォン２Ａに通電して周波数解析を行って取得しても良い。評価部２０は、取得した第１マイクロフォン１０の周波数特性及び第２マイクロフォン２Ａの周波数特性の差異を算定する。

　補正部２１は、第１マイクロフォン１０及び第２マイクロフォン２Ａのうちの一方の周波数特性を他方の周波数特性に一致するように補正する。上述したように、第１マイクロフォン１０の周波数特性及び第２マイクロフォン２Ａの周波数特性は評価部２０により評価されている。また、評価部２０による評価は、第１マイクロフォン１０及び第２マイクロフォン２Ａのうちの少なくともいずれか一方に対して音声が入力されていない状態に行われる。

　音声が入力されていない状態における第１マイクロフォン１０及び第２マイクロフォン２Ａのうちの一方とは、第１マイクロフォン１０及び第２マイクロフォン２Ａの双方に対して音声が入力されていない状態にあっては、第１マイクロフォン１０及び第２マイクロフォン２Ａの一方が相当し、第１マイクロフォン１０及び第２マイクロフォン２Ａのうちの一方に対して音声が入力されていない状態にあっては、第１マイクロフォン１０及び第２マイクロフォン２Ａのうち、音声が入力されていないものが相当する。

　また、音声が入力されていない状態における第１マイクロフォン１０及び第２マイクロフォン２Ａのうちの他方とは、第１マイクロフォン１０及び第２マイクロフォン２Ａの双方に対して音声が入力されていない状態にあっては、第１マイクロフォン１０及び第２マイクロフォン２Ａの他方が相当し、第１マイクロフォン１０及び第２マイクロフォン２Ａのうちの一方に対して音声が入力されていない状態にあっては、第１マイクロフォン１０及び第２マイクロフォン２Ａのうち、音声が入力されているものが相当する。

　したがって、補正部２１は、第１マイクロフォン１０及び第２マイクロフォン２Ａの双方に対して音声が入力されていない状態にあっては、第１マイクロフォン１０及び第２マイクロフォン２Ａの一方の周波数特性を、第１マイクロフォン１０及び第２マイクロフォン２Ａの他方の周波数特性に一致するように補正し、第１マイクロフォン１０及び第２マイクロフォン２Ａのうちの一方に対して音声が入力されていない状態にあっては、第１マイクロフォン１０及び第２マイクロフォン２Ａのうち、音声が入力されていないものの周波数特性を、第１マイクロフォン１０及び第２マイクロフォン２Ａのうち、音声が入力されているものの周波数特性に一致するように補正する。

　以上のように構成することで、第１マイクロフォン１０及び第２マイクロフォン２Ａのうち、少なくとも後に音声が入力されるものを、先に入力されるものの周波数特性に一致させることができるので、マイクロフォンの周波数特性の差異に起因した照合の誤りを低減できる。

３．第３の実施形態
　次に、第３の実施形態について説明する。第３の実施形態に係るマイクユニット１は、上記第１の実施形態に係るマイクユニット１に、試験用音データ取得部３０、算定部３１、及びパラメータ変更部４０を備えている点が異なる。この点以外については、第１の実施形態と同様であるので、ここでは主に異なる点を中心に説明する。

　図３は、本実施形態に係るマイクユニット１の構成を模式的に示すブロック図である。図３に示されるように、本実施形態のマイクユニット１は、第１マイクロフォン１０、音データ取得部１１、音データ登録部１２、評価用音データ取得部１３、照合部１４、照合結果出力部１５、試験用音データ取得部３０、算定部３１、及びパラメータ変更部４０の各機能部を備える。試験用音データ取得部３０、算定部３１、及びパラメータ変更部４０も、第１の実施形態で説明した他の各機能部と同様に、上述した判定に係る処理を行うために、ＣＰＵを中核部材としてハードウェア又はソフトウェア或いはその両方で構築されている。

　試験用音データ取得部３０は、照合用音データが登録された後であって、第１マイクロフォン１０から評価用音データが取得される前に、第１マイクロフォン１０で照合用音データに係る音声を発した発声者の音声を試験用音データとして取得する。照合用音データが登録された後とは、第２マイクロフォン２Ａに入力された音声を変換して生成された照合用音データが音データ登録部１２に登録された後である。評価用音データが取得される前とは、評価用音データ取得部１３により第１マイクロフォン１０に入力された音声を変換して生成された評価用音データが取得される前である。第１マイクロフォン１０で照合用音データに係る音声を発した発声者の音声とは、音データ登録部１２に登録された照合用音データの基となる音声を発した発声者と同一の発声者の音声であって、第１マイクロフォン１０から取得した音声である。

　したがって、試験用音データ取得部３０は、音データ登録部１２に第２マイクロフォン２Ａに入力された音声を変換して生成された照合用音データが登録されてから、評価用音データ取得部１３により第１マイクロフォン１０に入力された音声を変換して生成された評価用音データが取得されるまでの間に、音データ登録部１２に登録された照合用音データの基となる音声を発した発声者と同一の発声者により入力された音声を第１マイクロフォン１０から試験用音データに変換して取得する。

　算定部３１は、試験用音データと照合用音データとに基づいて、照合に用いる照合用パラメータを変更しながら試験用音データに基づく発声者の照合率を算定する。算定部３１は、試験用音データを試験用音データ取得部３０から取得し、照合用音データを音データ登録部１２から取得する。照合に用いるパラメータとは、試験用音データの基となる音声の発声者が照合用音データの基となる音声の発声者であると照合されるように、試験用音データ及び照合用音データの少なくともいずれか一方を補正するパラメータである。

　本実施形態では、照合用パラメータは、試験用音データ及び照合用音データのうちの少なくともいずれか一方を増幅する増幅率が相当する。例えば、試験用音データと照合用音データとの振幅を互いに等しくするように、第１マイクロフォン１０における試験用音データ及び第２マイクロフォン２Ａにおける照合用音データの少なくとも一方を増幅すると良い。この時の増幅率が照合用パラメータにあたる。

　算定部３１は、増幅率を順次、変更しながら、入力された試験用音データ及び照合用音データの一方又は双方を増幅し、試験用音データの基となる音声の発声者と照合用音データの基となる音声の発声者とが、同一の発声者であると照合されるか否かを算定する。算定部３１は、このような算定結果を記憶する。

　パラメータ変更部４０には、算定部３１により算定された照合率のうち、最も高い照合率である時の照合用パラメータ（増幅率）が伝達され、その照合パラメータが第１マイクロフォン１０及び第２マイクロフォン２Ａの少なくともいずれか一方に設定される。そして、照合部１４は、算定部３１により算定された照合率のうち、パラメータ変更部４０により設定された最も高い照合率である時の照合用パラメータが適用された試験用音データと照合用音データとに基づいて照合を行う。このような構成により、評価用音データに基づく音声の発声者が、照合用音データに基づく音声の発声者であるにも拘らず、同じ発声者でないと判定する誤照合を低減できる。

　本実施形態では、上述した照合用パラメータの変更は、パラメータ変更部４０が、第１マイクロフォン１０に対する評価用音データに基づく音声の入力時に、当該第１マイクロフォン１０のパラメータを照合用パラメータに基づいて自動で変更するように構成されている。これにより、照合用パラメータを容易に変更することができ、また、評価用音データに基づく音声の発声者が、照合用音データに基づく音声の発声者であるにも拘らず、同じ発声者でないと判定する誤照合を低減可能な評価用音データを用いて照合をすることが可能となる。

４．照合処理
　次に、マイクユニット１の具体的な適用例について、図４に示すドアのロック解除を例に挙げて説明する。まず、ユーザ１００がスマートフォン等の携帯端末（装置２の一例）に備えられた第２マイクロフォン２Ａに、所定の単語を発声した音声を入力する（＃１）。このようにスマートフォンを介した音声の入力は、予めスマートフォンにアプリケーションをセットアップしておくことで行うことが可能である。

　第２マイクロフォン２Ａに入力された音声は音データに変換され、スマートフォンの通信機能（例えば無線通信）を介して、マイクユニット１に伝達される。このような音データへの変換もスマートフォンのアプリケーションを利用して行うと好適である。マイクユニット１の音データ取得部１１がこの音データを取得し、照合用音データ生成部３Ａにより音データから特徴点が抽出された照合用音データが音データ登録部１２により照合用音データとして登録される（＃２）。

　このような状態において、ユーザ１００によりマイクユニット１の第１マイクロフォン１０に音声が入力される（＃３）。この時、上述した特定の単語を発声することで音声を入力すると良い。なお、この時点においてマイクユニット１は音声の入力者がユーザ１００であるか否かは特定されていなくても良い。入力された音声は第１マイクロフォン１０により評価用音データに変換され、評価用音データ取得部１３が取得する。照合部１４が、評価用音データから抽出した特徴点を照合用音データと照合する（＃５）。

　照合部１４により、評価用音データに基づく音声の発声者が、照合用音データの音声に基づく発声者であると判定されると、照合結果出力部１５がロックユニットに２つの音声に係る発声者が同一人物である、すなわち、評価用音データに基づく音声の発声者が照合用音データに基づく音声の発声者であるユーザ１００であることを示す信号をロックユニットに出力する。これにより、ロックが解除される（＃６）。

　一方、＃２の状態において、ユーザ１００とは別人であるユーザ１５０によりマイクユニット１の第１マイクロフォン１０に音声が入力される（＃７）。なお、この時点においてマイクユニット１は音声の入力者がユーザ１５０であるか否かは特定されていなくても良い。入力された音声は第１マイクロフォン１０により評価用音データに変換され、評価用音データ取得部１３が取得する。照合部１４が、評価用音データを照合用音データと照合する（＃８）。

　照合部１４により、評価用音データに基づく音声の発声者が、照合用音データの音声に基づく発声者でないと判定されると、照合結果出力部１５がロックユニットに２つの音声に係る発声者が同一人物でない、すなわち、評価用音データに基づく音声の発声者が照合用音データに基づく音声の発声者であるユーザ１００でないことを示す信号をロックユニットに出力する。この場合には、ロックが解除されず、ロック状態が維持される（＃９）。なお、係る場合、評価用音データに基づく音声の発声者が照合用音データに基づく音声の発声者であるユーザ１００でないことを示す信号を報知部（図示せず）に出力し、報知部が発声者が異なっていることを示す音や光を出力して報知するように構成することも可能である。

　なお、入力された音声に係る単語が、照合用音データに係る音声の単語と異なっていれば、今回の発声に係るユーザ１５０がユーザ１００でないと判定することも可能である。　

５．その他の実施形態
　上記第１の実施形態では、照合部１４がスリープ状態である場合に、評価用音データ取得部１３による評価用音データの取得をトリガとしてスリープ状態を終了するとして説明したが、照合部１４はスリープ状態にならないように構成することも可能である。

　上記第２の実施形態では、マイクユニット１は、第１マイクロフォン１０、音データ取得部１１、音データ登録部１２、評価用音データ取得部１３、照合部１４、照合結果出力部１５、評価部２０、補正部２１の各機能部を備えるとして説明したが、試験用音データ取得部３０及び算定部３１を備えて構成しても良いし、更に、試験用音データ取得部３０及び算定部３１に加え、パラメータ変更部４０を備えて構成しても良い。

　上記第３の実施形態では、マイクユニット１がパラメータ変更部４０を備えるとして説明したが、マイクユニット１はパラメータ変更部４０を備えずに構成することも可能である。

　上記実施形態では、第１マイクロフォン１０が１つである場合の例を挙げて説明したが、第１マイクロフォン１０を複数備えて構成することも可能である。係る場合、第１マイクロフォンの夫々に所期の方向からの音声のみが入力可能なるように構成すると好適である。これにより、特定の音声のみを認識し、発声者を照合し易くすることが可能となる。

　上記第２の実施形態では、第１マイクロフォン１０と第２マイクロフォン２Ａの周波数特性を評価し、補正部２１が第１マイクロフォン１０及び第２マイクロフォン２Ａのうちの一方の周波数特性を他方の周波数特性に一致するように補正するとして説明した。これに代え、まず、ユーザ１００は第１マイクロフォン１０に対して音声を入力し、マイクユニット１が第１マイクロフォン１０に入力された音声を無線通信で装置２に転送する。次に、装置２の第２マイクロフォン２Ａが、マイクユニット１から転送された音声に基づいて、音データとして取得し、音データを照合用音データとして登録するように構成することも可能である。このような構成であれば、直接、第１マイクロフォン１０に入力された音声を用いて照合用音データを生成できるため、周波数特性を一致させるような補正を不要とできる。また、係る構成であっても、第１マイクロフォン１０と第２マイクロフォン２Ａとの周波数特性の差異に基づく誤った照合を防止できる。また、第１マイクロフォン１０に音データ取得部１１への伝達機能を持たせることなく、第２マイクロフォン２Ａを有する装置２における機能（音データ取得部１１への伝達機能）を有効に活用することができると共に、予め周波数特性を補正する必要がないので効率的である。

　上記実施形態では、マイクユニット１をドアロックの解錠に利用する場合の例を挙げて説明したが、例えば車両のドアロックや、車両の動力装置（例えばエンジンやモータ等）の始動や、車両に設けられるデバイス（ハンズフリーマイクや、スピーカマイク一体型ボックスや、車外音声認識マイク、車内音声認識マイク）に利用することも可能である。また、車両に拘らず、スマートスピーカや、住設組み込み用マイク、監視カメラ、インタホン、家電機器（テレビ、冷蔵庫、炊飯器、電子レンジ等）、風呂用リモコン等に利用することも可能である。すなわち、換言すれば、マイクユニット１は第１マイクロフォン１０に入力された音声の発声内容を推定し、推定された第１マイクロフォン１０が搭載された装置（マイクユニット１）に対して操作指令を行うといえる。

　上記実施形態では、第１マイクロフォン１０と第２マイクロフォン２Ａとは互いに異なるマイクロフォンである場合の例を挙げて説明したが、第１マイクロフォン１０と第２マイクロフォン２Ａとは同じマイクロフォンであっても良い。

　上記実施形態では、「４．照合処理」において、「ユーザ１００がスマートフォン等の携帯端末（装置２の一例）に備えられた第２マイクロフォン２Ａに、所定の単語を発声した音声を入力する（＃１）」として説明したが、ユーザ１００が第１マイクロフォン１０に、所定の単語を発声した音声を入力し、第１マイクロフォン１０に入力された音声を第２マイクロフォン２Ａに無線通信を介して伝達し、照合用音データを生成するように構成することが可能である。更には、「照合部１４が、評価用音データから抽出した特徴点を照合用音データと照合する（＃５）」として説明したが、評価用音データからの特徴点の抽出も、第２マイクロフォン２Ａにて行うように構成することも可能である。いずれの場合であっても、各データや特徴点は、無線通信を介して伝達するように構成することが可能である。

　本発明は、第１マイクロフォンに入力された音声が、所期の発声者による音声であるか否かを判定可能なマイクユニットに用いることが可能である。

　１：マイクユニット
　２：異なる装置
　２Ａ：第２マイクロフォン
　１０：第１マイクロフォン
　１１：音データ取得部
　１２：音データ登録部
　１３：評価用音データ取得部
　１４：照合部
　１５：照合結果出力部
　２０：評価部
　２１：補正部
　３０：試験用音データ取得部
　３１：算定部
　４０：パラメータ変更部

Claims

　第１マイクロフォンに入力された音声が、所期の発声者による音声であるか否かを判定可能なマイクユニットであって、
　音声を音データとして取得する音データ取得部と、
　前記音データから特徴点を抽出した照合用音データを登録する音データ登録部と、
　前記第１マイクロフォンに入力された音声を評価用音データとして取得する評価用音データ取得部と、
　前記照合用音データと前記評価用音データから抽出した特徴点とに基づいて、前記評価用音データに基づく音声の発声者が前記照合用音データに基づく音声の発声者であるか否かの照合を行う照合部と、
　前記照合部の照合結果を出力する照合結果出力部と、
を備え、
　前記照合用音データは、前記第１マイクロフォンが搭載された装置とは異なる装置によって作成され、前記第１マイクロフォンが搭載された装置と前記異なる装置とは無線通信により前記照合用音データの受け渡しが行われるマイクユニット。
　前記照合部がスリープ状態である場合に、前記評価用音データ取得部による前記評価用音データの取得をトリガとして前記スリープ状態を終了する請求項１に記載のマイクユニット。
　前記音データ取得部が取得する音データは、前記第１マイクロフォンが搭載された装置とは異なる装置に設けられた第２マイクロフォンに入力された音声であって、
　前記第１マイクロフォン及び前記第２マイクロフォンの双方への音声の入力前に、前記第１マイクロフォンの周波数特性及び前記第２マイクロフォンの周波数特性を評価する評価部と、
　前記第１マイクロフォン及び前記第２マイクロフォンのうちの一方の周波数特性を他方の周波数特性に一致するように補正する補正部と、を更に備える請求項１又は２に記載のマイクユニット。
　前記照合用音データが登録された後であって、前記評価用音データが取得される前に、前記第１マイクロフォンで前記照合用音データに係る音声を発した発声者の音声を試験用音データとして取得する試験用音データ取得部と、
　前記試験用音データと前記照合用音データとに基づいて、前記照合に用いる照合用パラメータを変更しながら前記試験用音データに基づく前記発声者の照合率を算定する算定部と、を更に備え、
　前記照合部は、前記算定部により算定された前記照合率のうち、最も高い照合率である時の前記照合用パラメータに基づいて前記照合を行う請求項１から３のいずれか一項に記載のマイクユニット。
　前記照合用パラメータは、前記試験用音データ及び前記照合用音データのうちの少なくともいずれか一方を増幅する増幅率である請求項４に記載のマイクユニット。
　前記第１マイクロフォンに対する前記評価用音データに基づく音声の入力時に、当該第１マイクロフォンのパラメータを前記照合用パラメータに基づいて自動で変更するパラメータ変更部を、更に備える請求項４又は５に記載のマイクユニット。
　前記照合部の照合結果に基づいて、前記第１マイクロフォンに入力された音声の発声者を識別する請求項１から６のいずれか一項に記載のマイクユニット。
　前記第１マイクロフォンに入力された音声の発声内容を推定し、推定された内容に基づき前記第１マイクロフォンが搭載された装置に対して操作指令を行う請求項１から７のいずれか一項に記載のマイクユニット。