JP2021064110A - Voice authentication device, voice authentication system and voice authentication method - Google Patents
Voice authentication device, voice authentication system and voice authentication method Download PDFInfo
- Publication number
- JP2021064110A JP2021064110A JP2019187784A JP2019187784A JP2021064110A JP 2021064110 A JP2021064110 A JP 2021064110A JP 2019187784 A JP2019187784 A JP 2019187784A JP 2019187784 A JP2019187784 A JP 2019187784A JP 2021064110 A JP2021064110 A JP 2021064110A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- authentication
- voice
- user
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【課題】認証の際に高い安全性を確保するとともに、登録時にユーザに掛かる負担を軽減することができる音声認証装置、音声認証システム、および音声認証方法を提供する。【解決手段】第1発話用文字列に含まれる文字を含む第2発話用文字列を生成する認証用文字列生成部23と、第1発話用文字列をユーザが発話して生成された第1音声データから、第2発話用文字列に対応する声紋データを抽出する声紋データ生成部25と、第2発話用文字列をユーザが発話して生成された第2音声データおよび声紋データを用いてユーザの認証を行う認証部26と、を備える。【選択図】図3PROBLEM TO BE SOLVED: To provide a voice authentication device, a voice authentication system, and a voice authentication method capable of ensuring high security at the time of authentication and reducing the burden on the user at the time of registration. SOLUTION: An authentication character string generation unit 23 for generating a second utterance character string including characters included in a first utterance character string, and a first utterance character string generated by a user speaking. Using the voiceprint data generation unit 25 that extracts the voiceprint data corresponding to the second speech character string from the first voice data, and the second voice data and voiceprint data generated by the user speaking the second speech string. It is provided with an authentication unit 26 that authenticates the user. [Selection diagram] Fig. 3
Description
本発明は、音声による認証を行う音声認証装置、音声認証システム、および音声認証方法に関する。 The present invention relates to a voice authentication device, a voice authentication system, and a voice authentication method for performing voice authentication.
ユーザが発話した音声を用いて認証を行う音声認証技術が普及している。音声認証技術は、あらかじめ登録されたユーザの音声と、認証の際に新たに取得したユーザの音声とを照合することで、認証を行う技術である。 Voice authentication technology that authenticates using voice spoken by a user is widespread. The voice authentication technology is a technology for authenticating by collating a user's voice registered in advance with a user's voice newly acquired at the time of authentication.
音声認証技術における照合方式の代表的なものとして、パスワード方式、フリーワード方式等がある。パスワード方式では、ユーザがあらかじめ定められたパスワードを発話して得られた音声データをあらかじめ登録しておき、当該音声データと、認証時にユーザがパスワードを改めて発話して得られた音声データとを照合することで認証が行われる。また、フリーワード方式の音声認証技術では、あらかじめ登録された音声データと、ユーザが自由な内容を発話して得られた音声データとを用いて、ユーザの音声の特徴が合致するか否かを判定することで認証が行われる。 Typical verification methods in voice authentication technology include password methods and free word methods. In the password method, the voice data obtained by the user speaking a predetermined password is registered in advance, and the voice data is collated with the voice data obtained by the user speaking the password again at the time of authentication. Authentication is performed by doing. Further, in the free word type voice authentication technology, whether or not the characteristics of the user's voice match is determined by using the voice data registered in advance and the voice data obtained by the user uttering free contents. Authentication is performed by making a judgment.
このような音声認証技術において、例えば登録時の音声データが盗用されると、なりすましにより不正に認証が行われてしまうことがある。これを避けるため、ユーザが複数のパスワードを発話して得られた複数の音声データをあらかじめ登録しておき、複数のパスワードのうち1つまたはいくつかのパスワードを用いて認証を行うことが考えられる。 In such a voice authentication technology, for example, if the voice data at the time of registration is stolen, the authentication may be performed illegally by spoofing. In order to avoid this, it is conceivable that a plurality of voice data obtained by the user uttering a plurality of passwords are registered in advance, and authentication is performed using one or several passwords among the plurality of passwords. ..
しかしながら、ユーザが複数のパスワードを発話して音声データを登録するためには多大な時間が掛かり、ユーザに大きな負担を強いることになる。このため、登録時のユーザの負担を少なくし、かつ安全性が高い認証技術が要望されている。 However, it takes a lot of time for the user to speak a plurality of passwords and register the voice data, which imposes a heavy burden on the user. Therefore, there is a demand for an authentication technology that reduces the burden on the user at the time of registration and has high security.
特許文献1には、ユーザがパスワードを発話して得られた音声データを登録するのではなく、パスワードを構成する音の各要素について要素毎の声紋データを登録しておき、認証時に得られた音声データと声紋データとを要素毎に比較することで認証を行う技術が開示されている。
In
特許文献1に開示された技術では、認証時に設定されるパスワードに登場しうる全ての音の要素毎に声紋データをあらかじめ登録しておく必要がある。このため、特許文献1に開示された技術では、認証の度に異なるパスワードをユーザに発話させることになる。このため、登録時の音声データが盗用されても不正認証を防止することはできるが、全ての音の要素毎に声紋データを登録するため、登録時にユーザに大きな負担を強いることは改善されていない。
In the technique disclosed in
本発明によれば、認証の際に高い安全性を確保するとともに、登録時にユーザに掛かる負担を軽減することができる音声認証装置、音声認証システム、および音声認証方法を提供することを目的とする。 An object of the present invention is to provide a voice authentication device, a voice authentication system, and a voice authentication method that can ensure high security at the time of authentication and reduce the burden on the user at the time of registration. ..
本発明の音声認証装置は、所定文字列に含まれる文字の少なくともいずれかを含む認証用文字列を生成する認証用文字列生成部と、前記所定文字列をユーザが発話して生成された第1音声データから、前記認証用文字列に対応する部分の第1声紋データを生成するとともに、前記認証用文字列を前記ユーザが発話して生成された第2音声データに基づいて第2声紋データを生成する声紋データ生成部と、前記第1声紋データと前記第2声紋データとを照合して前記ユーザの認証を行う認証部と、を備える。 The voice authentication device of the present invention includes an authentication character string generator that generates an authentication character string including at least one of the characters included in the predetermined character string, and a first generated by the user speaking the predetermined character string. From the 1 voice data, the first voice print data of the portion corresponding to the authentication character string is generated, and the second voice print data is based on the second voice data generated by the user speaking the authentication character string. The user is provided with a voiceprint data generation unit that generates the data, and an authentication unit that collates the first voiceprint data with the second voiceprint data to authenticate the user.
本発明の音声認証システムは、ユーザの発話に基づいて音声データを生成する音声データ生成部と、前記ユーザに対して発話を求める文字列を提示する提示部と、所定文字列に含まれる文字の少なくともいずれかを含む認証用文字列を生成する認証用文字列生成部と、前記所定文字列を前記ユーザが発話して生成された第1音声データから、前記認証用文字列に対応する部分の第1声紋データを生成するとともに、前記認証用文字列を前記ユーザが発話して生成された第2音声データに基づいて第2声紋データを生成する声紋データ生成部と、前記第1声紋データと前記第2声紋データとを照合して前記ユーザの認証を行う認証部と、を備える。 The voice authentication system of the present invention includes a voice data generation unit that generates voice data based on a user's speech, a presentation section that presents a character string that requests the user to speak, and a character included in a predetermined character string. An authentication character string generation unit that generates an authentication character string including at least one of them, and a portion corresponding to the authentication character string from the first voice data generated by the user speaking the predetermined character string. A voiceprint data generation unit that generates first voiceprint data and generates second voiceprint data based on the second voice data generated by the user speaking the authentication character string, and the first voiceprint data. It includes an authentication unit that collates with the second voiceprint data and authenticates the user.
本発明の音声認証方法は、所定文字列に含まれる文字の少なくともいずれかを含む認証用文字列を生成し、前記所定文字列をユーザが発話して生成された第1音声データから、前記認証用文字列に対応する部分の第1声紋データを生成し、前記認証用文字列を前記ユーザが発話して生成された第2音声データに基づいて第2声紋データを生成し、前記第1声紋データおよび前記第2声紋データを用いて前記ユーザの認証を行う。 The voice authentication method of the present invention generates an authentication character string including at least one of the characters included in the predetermined character string, and the authentication is performed from the first voice data generated by the user speaking the predetermined character string. The first voiceprint data of the part corresponding to the character string is generated, the second voiceprint data is generated based on the second voice data generated by the user speaking the authentication character string, and the first voiceprint is generated. The user is authenticated using the data and the second voice pattern data.
認証の際に高い安全性を確保するとともに、登録時にユーザに掛かる負担を軽減することができる。 It is possible to ensure high security at the time of authentication and reduce the burden on the user at the time of registration.
以下、本発明の各実施の形態について図面を参照して詳細に説明する。ただし、必要以上に詳細な説明、例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明等は省略する場合がある。 Hereinafter, each embodiment of the present invention will be described in detail with reference to the drawings. However, more detailed explanations than necessary, such as detailed explanations of already well-known matters and duplicate explanations for substantially the same configuration, may be omitted.
なお、以下の説明および参照される図面は、当業者が本発明を理解するために提供されるものであって、本発明の請求の範囲を限定するためのものではない。 The following description and referenced drawings are provided for those skilled in the art to understand the present invention, and are not intended to limit the scope of the claims of the present invention.
<音声認証システム1の構成>
まず、図1を参照して、本発明の実施の形態に係る音声認証システム1の構成について説明する。図1に示すように、音声認証システム1は、端末装置10と、音声認証装置20と、ネットワーク30と、を有する。
<Configuration of
First, the configuration of the
端末装置10は、音声認証システム1のユーザ(以下、単にユーザと記載する)の音声入力を受け付け、音声データを生成する装置である。端末装置10の一例としては、タブレット端末、スマートフォン等の携帯端末装置が挙げられる。また、端末装置10の一例としては、特定の場所に設置されたPC(Personal Computer)等のコンピュータが挙げられる。
The
本実施の形態において、端末装置10は、ユーザが所望のサービスを受けようとする際に、そのサービスを受けるための認証が行われる場所、および、認証のために必要な音声データの登録が行われる場所等に設置されている。ユーザは、この端末装置10を介して、所望のサービスを受けるより前に、音声認証のために必要な音声データの登録を行う。また、ユーザは、音声認証装置20により、登録された音声データと、認証の際に新たに生成された音声データとを用いた音声認証が成功した場合に、所望のサービスを受けることができる。
In the present embodiment, when the user wants to receive a desired service, the
なお、本実施の形態において、音声認証とは、音声データを用いて認証を行うことを意味する。また、以下の説明において、音声認証の際に用いられる音声データを事前に登録することを、音声登録と記載する。音声認証では、音声登録された音声データと、認証の際に新たに生成された音声データとを照合することで、認証の成否が判断される。音声認証システム1における、音声登録を行うための音声登録処理、および、音声認証を行うための音声認証処理についての詳細は、後述する。
In the present embodiment, voice authentication means that authentication is performed using voice data. Further, in the following description, registering voice data used for voice authentication in advance is referred to as voice registration. In voice authentication, the success or failure of authentication is determined by collating the voice data registered by voice with the voice data newly generated at the time of authentication. The details of the voice registration process for performing voice registration and the voice authentication process for performing voice authentication in the
所望のサービスについては、本発明では特に限定しない。所望のサービスの一例としては、特定の施設(会員制の店舗等)への入場、料金決済、他のユーザへの送金、等が挙げられる。 The desired service is not particularly limited in the present invention. Examples of desired services include admission to a specific facility (membership store, etc.), payment of fees, remittance to other users, and the like.
例えばユーザが会員制のスポーツクラブへの入店を希望する場合、ユーザは、当該スポーツクラブの入口に設置された端末装置10を用いて音声登録を行っておく。その後、ユーザは当該端末装置10を介して音声認証システム1に音声認証を行わせる。認証に成功した場合に、当該スポーツクラブへのユーザの入店が許可される。
For example, when a user wishes to enter a membership-based sports club, the user performs voice registration using a
また、例えばユーザが商品購入時に料金の決済を希望する場合、ユーザは、商品を購入しようとする店舗のレジに設置された端末装置10を用いて音声登録を行っておく。その後、ユーザは当該端末装置10を介して音声認証システム1に音声認証を行わせる。認証に成功した場合に、あらかじめ登録されたユーザの決済用口座を用いて料金の決済が行われる。
Further, for example, when the user wishes to settle the fee at the time of purchasing the product, the user performs voice registration using the
図1の説明に戻る。音声認証装置20は、ネットワーク30を介して端末装置10と接続されており、端末装置10から音声データを受信して、その音声データを用いて音声登録および音声認証を行う装置である。音声認証装置20の一例としては、例えばクラウドサーバが挙げられる。
Returning to the description of FIG. The
ネットワーク30は、例えばインターネット等の公衆ネットワークである。
The
<端末装置10の構成>
次に、図2を参照して、端末装置10の構成について説明する。図2に示すように、端末装置10は、通信部11と、音声データ生成部12と、提示部13と、入力部14と、を有する。
<Configuration of
Next, the configuration of the
通信部11は、ネットワーク30を介して、音声認証装置20と種々のデータの送受信を行う。
The communication unit 11 transmits and receives various data to and from the
音声データ生成部12は、端末装置10に向かって発話したユーザの音声入力を受け付け、音声入力に基づく音声データを生成する。音声データ生成部12は、例えば、マイクを内蔵するデバイスである。音声データ生成部12による音声データ生成の方法については、本発明では特に限定しないが、例えば、マイクから入力された音声信号をA−D変換して音声データを生成する方法が採用されうる。音声データ生成部12は、さらに、音声データを圧縮符号に変換してもよい。
The voice
以下の説明では、音声信号をA−D変換したデータ、A−D変換したデータを符号化したデータ、後述する各種処理(ノイズ軽減、特徴量抽出、及び音素変換)を経て得られるデータを総称して音声データという。また、音声データのうち、個人を識別可能なデータを声紋データという。なお、音声認証には声紋データを用いることが一般的であり、以下の説明において、音声認証と声紋認証は実質的に同義であるとする。 In the following description, the data obtained by A-D conversion of the audio signal, the encoded data of the A-D converted data, and the data obtained through various processes (noise reduction, feature amount extraction, and phonetic conversion) described later are collectively referred to. And it is called voice data. In addition, among the voice data, data that can identify an individual is called voiceprint data. It should be noted that voiceprint data is generally used for voice authentication, and in the following description, voice authentication and voiceprint authentication are substantially synonymous.
提示部13は、端末装置10がユーザの音声登録または音声認証を行う際に、ユーザに発話させる文字列(後述する第1発話用文字列、または後述する第2発話用文字列)をユーザに対して提示する。提示部13は、例えば、ディスプレイであり、この場合、提示部13は、文字列を表示することで、文字列をユーザに対して提示する。また、提示部13は、例えば、スピーカであり、この場合、提示部13は、ユーザに発話させる文字列を音声で提示する。なお、本発明において、提示部13はディスプレイまたはスピーカに限定されず、例えば点字等により文字列を提示する装置であってもよい。また、提示部13はディスプレイおよびスピーカ、または他の装置を併用したものであってもよい。
The
本発明において、文字列とは、文字が連なったものを意味する。本発明において、文字列とは、意味をなさない文字の連なりであってもよいが、文字列全体で意味をなす文字の連なり(単語等)であることがより望ましい。本発明において、文字とは、言語の伝達手段の一つとして使われる記号等を意味しており、どのような記号であるかについては特に限定しないが、1つの記号が1つの音を表すもの(いわゆる音節文字)であることがより望ましい。以下では、文字として、仮名、またはアラビア数字を採用した場合について説明する。 In the present invention, the character string means a series of characters. In the present invention, the character string may be a series of characters that do not make sense, but it is more preferable that the character string is a series of characters (words, etc.) that make sense in the entire character string. In the present invention, the character means a symbol or the like used as one of the means of transmitting a language, and the symbol is not particularly limited, but one symbol represents one sound. (So-called syllabary) is more desirable. In the following, a case where a kana or an Arabic numeral is adopted as a character will be described.
提示部13は、1つの文字列のみを提示してもよいし、複数の文字列を提示してもよい。提示部13が複数の文字列を提示する場合、そのうちいずれの文字列を発話するかについては、ユーザが選択できるようにしてもよい。また、提示部13は、複数の文字列の提示順を、後述するセキュリティレベルに応じた順序としてもよいし、ランダムな順序としてもよい。
The
入力部14は、ユーザによる音声以外の入力操作を受け付ける。入力部14は、例えば、タッチパネル、キーボード、マウス、トラックボール等の操作デバイスである。
The
端末装置10は、このような構成により、ユーザの音声認証の際に、ユーザに発話させる文字列を提示し、ユーザが文字列を発話した場合、その音声を音声データとして取得する。
With such a configuration, the
なお、提示部13が提示する文字列は、音声認証装置20が有する後述の第1発話用文字列生成部22、または認証用文字列生成部23によって生成されたものである。第1発話用文字列生成部22、または認証用文字列生成部23の動作の詳細については、後述する。
The character string presented by the
<音声認証装置20の構成>
次に、図3を参照して、音声認証装置20の構成について説明する。図3に示すように、音声認証装置20は、通信部21と、第1発話用文字列生成部22と、認証用文字列生成部23と、音声認識部24と、声紋データ生成部25と、認証部26と、サービス提供部27と、ユーザデータ取得部28と、記憶部29と、を有する。
<Configuration of
Next, the configuration of the
通信部21は、ネットワーク30を介して、端末装置10と種々のデータの送受信を行う。
The
第1発話用文字列生成部22は、音声認証システム1の音声登録処理の際にユーザに発話させる文字列である第1発話用文字列を生成する。第1発話用文字列生成部22による第1発話用文字列の生成方法については特に限定しないが、ユーザが発話しやすい文字列が生成されることが望ましい。
The first utterance character
第1発話用文字列生成部22は、例えば、後述する記憶部29に記憶されているコーパスやユーザ個別の辞書データを参照して文字列を生成してもよい。または、第1発話用文字列生成部22は、後述するユーザデータ取得部28により入手されたユーザに関する個人情報の少なくとも一部または当該個人情報から連想される単語を含むように第1発話用文字列を生成してもよい。
The first utterance character
認証用文字列生成部23は、音声認証システム1の音声認証処理の際にユーザに発話させる文字列である第2発話用文字列を生成する。認証用文字列生成部23は、まず、第1発話用文字列生成部22が生成した第1発話用文字列に含まれる文字のいずれかを含む認証用文字列を生成した後、認証用文字列を適宜組み合わせて第2発話用文字列を生成する。
The authentication character
第1発話用文字列生成部22および認証用文字列生成部23により生成される各文字列については、後に具体例を挙げて詳しく説明する。
Each character string generated by the first utterance character
音声認識部24は、通信部21が端末装置10から受信した音声データを文字列に変換する。これとともに、音声認識部24は、所定の文字列毎に音声データを切り出し、文字列と対応付けて出力する。そして、音声認識部24は、切り出した音声データ、文字列、及び当該文字列の時刻情報(開始時間及び終了時間)の対応付けを行い、対応付けた情報を記憶部29に記憶させる。
The
なお、音声認識部24は、音声データに基づいて変換した文字列に含まれる文字毎に音声データを切り出してもよいが、例えば変換した文字列に含まれる単語毎、または文節毎に音声データを切り出すことがより望ましい。音声認識部24が変換する文字列と、切り出す音声データとについては、後に具体例を挙げて詳しく説明する。
The
音声認識部24は、音声認証システム1の音声登録処理の際には、第1発話用文字列をユーザが実際に発話して得られた音声データを用いて、上記動作(文字列への変換、文字列に対応する音声データの切り出し、文字列の時刻情報との対応付け)を行う。なお、以下の説明において、第1発話用文字列をユーザが実際に発話して得られた音声データを、第1音声データと記載する。
The
また、音声認識部24は、音声認証システム1の音声認証処理の際には、第2発話用文字列をユーザが実際に発話して得られた音声データを用いて、上記動作を行う。なお、以下の説明において、第2発話用文字列をユーザが実際に発話して得られた音声データを、第2音声データと記載する。さらに、音声認識部24は、音声認証処理の際には、ユーザの音声データから、後述する付加文字列に該当する部分を除去し、その他の部分の音声データ及び時刻情報のみを音声認識の結果として出力する。
In addition, the
図4を参照して、音声認識部24について説明する。図4に示すように、音声認識部24は、ノイズリダクション部241と、発話検出部242と、特徴量抽出部243と、音素変換部244と、文字列変換部245と、音響モデル246と、言語モデル247と、付加文字列除去部248と、を有する。
The
ノイズリダクション部241は、音声データに含まれるノイズ(ユーザの周辺環境のノイズ等)を軽減する。ノイズリダクション部241によるノイズの軽減方法については、本発明では特に限定せず、既知のノイズ軽減方法を採用することができる。
The
発話検出部242は、入力された音声データからユーザが発話している部分を切り出す。
The
特徴量抽出部243は、例えばMFCC(Mel-Frequency Cepstrum Coefficient;メル周波数ケプストラム係数)等を音声データの特徴量として抽出する。特徴量の抽出方法については既知の技術を採用すればよく、本発明では特徴量の抽出方法については特に限定しない。
The feature
音素変換部244は、抽出された特徴量を音素に変換する。音素とは、ある言語における音声の最小単位を意味しており、本実施形態では、1つの文字に対応する1つの音を示す。具体例を挙げると、「あいうえお」という文字列をユーザが実際に発話して得られた音声データの中から、「あ」に該当する部分の音声データ(音声波形)を抽出したものが音素である。音素変換部244により、1つの音声データは、複数の音素の集まりに変換される。
The
音素変換部244が特徴量を音素に変換する方法については、本発明では特に限定しないが、以下のような方法を採用することができる。例えば、音素変換部244は、音響モデル246を用いた統計的手法により、特徴量を音素に変換する。音響モデル246は、特徴量と音素の繋がりに関する確率分布をあらかじめモデル化したものであり、音素変換部244は、例えばある特徴量と音響モデルとを比較(照合)し、最も確度が高い音素を、その特徴量に対応する音素として出力する。例えば、音素変換部244は、確度が高くなるよう、最も有用な特徴量を1つずつ足していき、確度の変化がなくなるまで反復的に繰り返すようにしてもよい。
The method by which the
文字列変換部245は、音素を文字列に変換する。すなわち、文字列変換部245は、入力された音声データの内容を文字列として出力する。
The character
文字列変換部245が音素を文字列に変換する方法については、本発明では特に限定しないが、以下のような方法を採用することができる。例えば、文字列変換部245は、言語モデル247を用いた統計的手法により、音素を文字列に変換する。言語モデル247は、品詞(単語)の繋がり等、文法構造に関する確率分布をモデル化したものであり、辞書データを含むモデルである。言語モデル247は、音声認識や音声認証の結果等に応じて動的に更新されてもよい。
The method by which the character
文字列変換部245は、例えば、音素変換部244から出力された音素の並びに対応する単語、品詞、またはこれらの繋がりを、言語モデル247から抽出し、最も確度が高い文字列を当該音素に対応する文字列として出力する。このような方法により、文章として意味が通っている音声データを、精度よく文字列に変換することができる。また、文字列変換部245は、変換した文字列(単語)毎に音声データを切り出すとともに、文字列の時刻情報(開始時刻および終了時刻)を取得し、変換した文字列と、切り出した音声データと、時刻情報と、を対応付けて出力する。
The character
付加文字列除去部248は、記憶部29を参照し、文字列変換部245が出力した文字列の中から認証文字列に対応する文字列を検出し、検出した認証文字列以外の文字列(付加文字列に相当)を除去する。そして、付加文字列除去部248は、認証文字列、当該認証文字列に対応付けられた音声データおよび時刻情報のみを出力する。
The additional character
図3の説明に戻る。声紋データ生成部25は、音声認識部24が出力した、文字列毎に対応付けられた音声データから、声紋データを生成する。声紋データ生成部25は、音声認識部24から複数の文字列が出力された場合は、それぞれの文字列に対応付けられた音声データから、それぞれの声紋データを生成する。
Returning to the description of FIG. The voiceprint
声紋データとは、ユーザの音声に固有の特徴である声紋に関するデータである。声紋データの生成方法については本発明では特に限定せず、既知の方法が適宜採用されればよい。一般的な声紋データ生成方法としては、多数の話者の音声から作られた音韻の標準モデルとの差分をとることで声紋データを生成する方法が挙げられる。 The voiceprint data is data related to the voiceprint, which is a characteristic unique to the user's voice. The method for generating the voiceprint data is not particularly limited in the present invention, and a known method may be appropriately adopted. As a general voiceprint data generation method, there is a method of generating voiceprint data by taking a difference from a standard model of phonology created from the voices of a large number of speakers.
声紋データ生成部25は、音声認証システム1の音声登録処理の際には、音声認識部24が第1音声データに基づいて出力した文字列に対応付けられた音声データから、声紋データを生成する。以下の説明において、音声登録処理の際に声紋データ生成部25が生成した声紋データを、第1声紋データと記載する。声紋データ生成部25が生成した第1声紋データは、音声登録処理の際に、音声認識部24が第1音声データに基づいて出力した文字列と対応付けられて、後述の記憶部29に記憶される。
The voice pattern
一方、声紋データ生成部25は、音声認証システム1の音声認証処理の際には、音声認識部24が第2音声データに基づいて出力した文字列に対応付けられた音声データから、声紋データを生成する。以下の説明において、音声認証処理の際に声紋データ生成部25が生成した声紋データを、第2声紋データと記載する。
On the other hand, the voice pattern
認証部26は、音声認証システム1の音声認証処理の際に、記憶部29に記憶されている第1声紋データと、声紋データ生成部25が生成した第2声紋データと、を照合することで、ユーザの認証を行う。認証部26は、第1声紋データと第2声紋データとの一致率が所定の閾値以上である場合に認証成功と判断し、一致率が所定の閾値未満である場合に認証失敗と判断する。
The
サービス提供部27は、認証部26によるユーザの認証が成功した場合に、ユーザに対して、所望のサービスを提供する。なお、本実施の形態では、説明の都合上、音声認証装置20がサービス提供部27を有するとしたが、本発明はこれに限定されない。
The
本発明では、音声認証装置20がサービス提供部27を有する代わりに、音声認証システム1がユーザに対して所望のサービスを提供するサービス提供装置をさらに有していてもよい(つまり、音声認証装置20から独立したサービス提供装置が設けられていてもよい)。この場合、サービス提供装置が、音声認証装置20の認証部26による認証が成功した場合に、サービスを提供すればよい。
In the present invention, instead of the
ユーザデータ取得部28は、端末装置10を介してユーザにより入力された、ユーザの個人情報(名前、住所、生年月日、性別、年齢等)に関するデータ(ユーザデータ)を取得する。ユーザデータ取得部28は、例えば端末装置10の入力部14を介してユーザが入力したユーザデータを、ネットワーク30および通信部21を介して取得すればよい。
The user
記憶部29は、音声認証装置20において用いられる種々のデータを記憶する記憶デバイスである。記憶部29には、例えば、第1発話用文字列を生成するための、コーパスおよび辞書データの少なくとも一方が記憶されている。また、記憶部29には、ユーザの音声データ、文字列、および当該文字列の時刻情報が互いに対応付けられた情報が記憶されている。また、記憶部29には、ユーザ毎に、ユーザの識別情報、第1発話用文字列、認証用文字列、第2発話用文字列、第1音声データ、第2音声データ、第1声紋データ、および第2声紋データが、互いに対応付けられて記憶されている。
The
<音声認証システム1の動作例>
以下では、上述した構成を有する音声認証システム1の動作例について、図5及び図6を参照して説明する。
<Operation example of
Hereinafter, an operation example of the
[1]音声登録処理
まず、図5を参照して、ユーザの音声を音声認証システム1に登録する音声登録処理について説明する。
[1] Voice registration process First, a voice registration process for registering a user's voice in the
ステップS1において、音声認証装置20は、端末装置10を介して入力された、ユーザからの登録処理の開始要求を受信する。ユーザによる音声登録処理の開始要求は、例えば端末装置10の入力部14を介して行われる。これにより、音声認証システム1の音声登録処理が開始される。
In step S1, the
ステップS2において、音声認証装置20の第1発話用文字列生成部22は、ユーザの音声登録時にユーザに発話させるための文字列である第1発話用文字列を生成する。
In step S2, the first utterance character
第1発話用文字列生成部22が生成する第1発話用文字列は、上述したように、ユーザが発話しやすい文字列であることが望ましいが、ランダムな文字列であってもよいし、例えばユーザの生年月日や年齢、住所、氏名等の個人情報の少なくとも一部または当該個人情報から連想される単語を含む文字列であってもよい。
As described above, the first utterance character string generated by the first utterance character
ランダムな文字列の例としては、特定の国や地域でよく使われる言い回し(例えば「げんこつやまのたぬきさん」)をコーパスからランダムに取得すること等が挙げられる。ユーザデータから導き出されるユーザの属性などに応じて、コーパスから取得した文字列を辞書データとして記憶部29に記憶させておき、第1発話用文字列生成部22は当該辞書データを参照して第1発話用文字列をランダムに生成してもよい。辞書データは音声認識や音声認証の結果などに応じて随時更新されてもよい。
An example of a random character string is to randomly obtain a phrase (for example, "Genkotsuyama no Tanuki-san") that is often used in a specific country or region from the corpus. The character string acquired from the corpus is stored in the
ユーザの生年月日、年齢、住所等の個人情報を含む文字列の例としては、「1995ねん1がつ1にち」、「33さい」、「ちよだくそとかんだ」等が挙げられる。なお、この例ではひらがなで表記したが、カタカナを採用してもよい。
Examples of character strings including personal information such as the user's date of birth, age, and address include "1995
また、第1発話用文字列生成部22は、コーパスや辞書データから取得したランダムな文字列とユーザデータに基づく文字列とを組み合わせて第1発話用文字列を生成するようにしてもよい(例えば、「げんこつ33さいのたぬき」等)。
Further, the first utterance character
第1発話用文字列生成部22は、このような動作により、複数の異なる第1発話用文字列を生成することがより望ましい。
It is more desirable that the first utterance character
図5の説明に戻る。ステップS3において、端末装置10の提示部13は、ステップS2で第1発話用文字列生成部22が生成した第1発話用文字列を、ユーザに対して提示する。これとともに、提示部13は、第1発話用文字列を発話する(読み上げる)よう、ユーザに対して要求する。
Returning to the description of FIG. In step S3, the
例えば提示部13がディスプレイである場合、提示部13は第1発話用文字列とともに、「表示された文字を読み上げて下さい。」等のメッセージを表示する。提示部13がスピーカである場合、提示部13は、「この後の言葉を発話して下さい。」等のメッセージを発した後、第1発話用文字列を音声として再生する。第1発話用文字列が複数生成されている場合、提示部13は、複数の第1発話用文字列を提示するとともに、そのうち1つの第1発話用文字列を選択して発話するようにユーザに要求するメッセージを出力する。
For example, when the
これにより、ユーザが第1発話用文字列を発話すると、端末装置10の音声データ生成部12によって、第1発話用文字列に対応する第1音声データが生成される。
As a result, when the user speaks the first utterance character string, the voice
ステップS4において、音声認証装置20は、端末装置10から第1音声データを取得する。
In step S4, the
ステップS5において、音声認証装置20の音声認識部24は、第1音声データを文字列に変換するとともに、変換した文字列に含まれる単語(または文字、または文節)毎に音声データを切り出し、文字列と切り出した音声データとを対応付けて出力する。
In step S5, the
以下、具体例を挙げて説明する。第1音声データが、ユーザが「げんこつやまのたぬきさん」と発話して得られた音声データであった場合、音声認識部24は、「げんこつ」に対応する音声データ、「やま」に対応する音声データ、「の」に対応する音声データ、「たぬき」に対応する音声データ、「さん」に対応する音声データをそれぞれ切り出す。
Hereinafter, a specific example will be described. When the first voice data is the voice data obtained by the user speaking "Genkotsuyama no Tanuki-san", the
なお、この例では音声認識部24は第1発話用文字列を単語毎に分割して音声データの切り出しを行う場合について説明したが、音声認識部24が音声データをどの程度(文字毎、単語毎、文節毎)に分けて切り出すかについては本発明では特に限定しない。音声認識部24は、例えば第1発話用文字列を文字毎(「げ」、「ん」、「こ」、「つ」・・・)に分割して音声データの切り出しを行ってもよい。
In this example, the
図5の説明に戻る。ステップS6において、音声認証装置20の認証用文字列生成部23は、後述の音声認証処理の際に用いられる文字列である、認証用文字列を生成する。
Returning to the description of FIG. In step S6, the authentication character
認証用文字列生成部23が生成する認証用文字列は、第1発話用文字列生成部22が生成した第1発話用文字列に含まれる文字(単語、文節)を含む。
The authentication character string generated by the authentication character
例えば、第1発話用文字列が「げんこつやまのたぬきさん」である場合、認証用文字列の例として、以下のようなものが挙げられる。
(1)げんこつ
(2)たぬきやま
(3)たぬきのこ
(4)こやまさん
(5)げやたさ
For example, when the character string for the first utterance is "Genkotsuyamanotanuki-san", the following is an example of the character string for authentication.
(1) Genkotsu (2) Tanukiyama (3) Tanukinoko (4) Koyama-san (5) Geyata
文字列(1)は、第1発話用文字列から文字の順序や単語の意味を変えず、当該第1発話用文字列の一部から認証用文字列を生成した例である。文字列(2)および(3)は、第1発話用文字列から文字の順序を一部変えつつも、当該第1発話用文字列に含まれる各単語の意味から逸脱しない範囲で、当該第1発話用文字列の一部から認証用文字列を生成した例である。 The character string (1) is an example in which an authentication character string is generated from a part of the first utterance character string without changing the order of characters or the meaning of a word from the first utterance character string. The character strings (2) and (3) are the first, as long as the order of the characters is partially changed from the first speech character string, but the meaning of each word included in the first speech string is not deviated. This is an example in which an authentication character string is generated from a part of a one-speech character string.
また、文字列(4)は、第1発話用文字列とは異なる意味が生まれるよう、当該第1発話用文字列の一部から認証用文字列を生成した例である。文字列(5)は、第1発話用文字列の順序や単語の意味とは全く無関係に、ランダムに当該第1発話用文字列の一部から文字を抽出して認証用文字列を生成した例である。 Further, the character string (4) is an example in which an authentication character string is generated from a part of the first utterance character string so that a meaning different from that of the first utterance character string is generated. The character string (5) randomly extracts characters from a part of the first utterance character string to generate an authentication character string, regardless of the order of the first utterance character string and the meaning of the word. This is an example.
このように、認証用文字列生成部23は、第1発話用文字列に含まれる文字を含む認証用文字列を生成する。なお、上述した例では、認証用文字列生成部23は複数の認証用文字列を生成していたが、本発明はこれに限定されず、1つの認証用文字列のみを生成してもよい。
In this way, the authentication character
なお、ステップS6において、認証用文字列生成部23は、認証用文字列の生成に用いるための第1発話用文字列として、ステップS5で音声認識部24が第1音声データに基づいて変換した文字列を用いることがより望ましい。しかしながら、本発明はこれに限定されず、認証用文字列生成部23は、第1発話用文字列を第1発話用文字列生成部22から直接取得してもよい。
In step S6, the authentication character
ステップS7において、認証用文字列生成部23は、ステップS6で生成した認証用文字列を用いて、第2発話用文字列を生成する。第2発話用文字列とは、後述する音声認証処理において、ユーザに発話させるための文字列である。
In step S7, the authentication character
上述したステップS6において、認証用文字列が複数生成された場合、本ステップS7において、認証用文字列生成部23は、そのうちの少なくとも1つを用いて第2発話用文字列を生成する。この際、認証用文字列生成部23は、複数の認証用文字列を用いて第2発話用文字列を生成してもよい。また、認証用文字列生成部23は、1つまたは複数の認証用文字列に、認証用文字列以外の文字列である付加文字列を付加して第2発話用文字列を生成してもよい。
When a plurality of authentication character strings are generated in step S6 described above, in this step S7, the authentication character
付加文字列は、音声認証処理のセキュリティレベルを向上させることを目的として、認証用文字列に付加される、余分な文字列である。付加文字列の生成方法については特に限定しないが、例えば、認証用文字列とともに使われやすい文字列をコーパスまたは辞書データから取得することで生成されてよいし、まったく意味をなさない完全なランダムな文字列を付加文字列としてもよい。 The additional character string is an extra character string added to the authentication character string for the purpose of improving the security level of the voice authentication process. The method of generating the additional character string is not particularly limited, but for example, it may be generated by acquiring a character string that is easy to use together with the authentication character string from the corpus or dictionary data, and it is completely random and does not make any sense at all. The character string may be an additional character string.
認証用文字列が上記文字列(1)〜(5)である場合の、第2発話用文字列の具体例について以下説明する。 A specific example of the second utterance character string when the authentication character string is the above character strings (1) to (5) will be described below.
1つの例として、認証用文字列生成部23は、単に上記文字列(1)〜(5)のうちの1つ(例えば文字列(2)「たぬきやま」)をそのまま第2発話用文字列としてもよい。
As an example, the authentication character
または、1つの例として、認証用文字列生成部23は、上記文字列(1)〜(5)のうちのいくつかを組み合わせて第2発話用文字列を生成してもよい。
Alternatively, as an example, the authentication character
文字列(1)「げんこつ」と文字列(3)「たぬきのこ」とを組み合わせた場合、第2発話用文字列は、「げんこつたぬきのこ」となる。さらに、認証用文字列生成部23は、文字列(1)「げんこつ」と文字列(3)「たぬきのこ」の2つの文字列をそれぞれ第2発話用文字列としてもよい。
When the character string (1) "Genkotsu" and the character string (3) "Tanuki no Ko" are combined, the second utterance character string becomes "Genkotsu Tanuki no Ko". Further, the authentication character
もしくは、文字列(2)「たぬきやま」、文字列(4)「こやまさん」、文字列(5)「げやたさ」を組み合わせた場合、第2発話用文字列は、「げやたさたぬきやまこやまさん」となる。さらに、認証用文字列生成部23は、文字列(2)「たぬきやま」、文字列(4)「こやまさん」、文字列(5)「げやたさ」の3つの文字列をそれぞれ第2発話用文字列としてもよい。
Alternatively, if the character string (2) "tanukiyama", the character string (4) "koyama-san", and the character string (5) "geyatasa" are combined, the second utterance character string is "geyata". It becomes "Satanuki Yamakoyama-san". Further, the authentication character
さらに、1つの例として、認証用文字列生成部23は、上記文字列(1)〜(5)のいずれか、またはこれらを組み合わせた文字列に、付加文字列を付加して第2発話用文字列を生成してもよい。例えば、文字列(3)「たぬきのこ」に対して付加文字列「なかよし」を付加した場合、第2発話用文字列は、「なかよしたぬきのこ」となる。
Further, as one example, the authentication character
このように、認証用文字列生成部23は、認証用文字列が複数ある場合、そのうちの少なくとも1つを第2発話用文字列としてもよいし、全てではない複数個を組み合わせて第2発話用文字列としてもよいし、全てを組み合わせて第2発話用文字列としてもよい。また、認証用文字列生成部23は、認証用文字列に対して当該認証用文字列と無関係の、または親和性のある文字列である付加文字列を付加して第2発話用文字列を生成してもよい。
In this way, when there are a plurality of authentication character strings, the authentication character
ここで、認証用文字列生成部23は、あらかじめ設定されたセキュリティレベル(認証レベル)に応じて、第2発話用文字列を生成するための認証用文字列の数および付加文字列の付加の有無を決定する。セキュリティレベルは、例えばユーザが受けようとするサービスの内容、サービスを受けようとする場所、利用頻度、環境音レベル、等の複数の要素毎にあらかじめ決定されていればよい。
Here, the authentication character
以下、図6を参照して、セキュリティレベルについて具体例を挙げて説明する。例えば、ユーザが利用しようとするサービスの内容と、セキュリティレベルとの関係は、例えば以下のようになる。すなわち、図6に示すように、ある施設への入退室はセキュリティレベル「1」である。9,999円以下の決済はセキュリティレベル「2」である。10,000円以上の決済はセキュリティレベル「3」である。他者への送金はセキュリティレベル「4」である。 Hereinafter, the security level will be described with reference to FIG. 6 by giving a specific example. For example, the relationship between the content of the service that the user intends to use and the security level is as follows, for example. That is, as shown in FIG. 6, the entrance / exit to a certain facility has a security level of “1”. Payments of 9,999 yen or less have a security level of "2". Payments of 10,000 yen or more have a security level of "3". Remittances to others have a security level of "4".
なお、本実施の形態では、セキュリティレベルの数字が大きいほどより高い安全性が求められることを意味しており、上述のサービス内容の例では、ある施設への入退室より他者への送金の方が求められる安全性が高いことが示されている。 In this embodiment, the larger the security level number, the higher the security is required. In the above example of the service content, remittance to another person is performed from entering or leaving a certain facility. It has been shown that the required safety is higher.
また、利用場所と、セキュリティレベルとの関係は、例えば以下のようになる。すなわち、図6に示すように、利用場所がユーザの自宅である場合、セキュリティレベル「1」である。利用場所が金融機関である場合、セキュリティレベル「2」である。利用場所が公的機関(役所、官公庁等)である場合、セキュリティレベル「3」である。利用場所がコンビニエンスストアである場合、周りに人が多いことが想定されるため、より求められる安全性が高く、セキュリティレベル「4」である。 The relationship between the place of use and the security level is as follows, for example. That is, as shown in FIG. 6, when the usage place is the user's home, the security level is "1". If the place of use is a financial institution, the security level is "2". If the place of use is a public institution (government office, government office, etc.), the security level is "3". When the place of use is a convenience store, it is assumed that there are many people around, so the required safety is higher and the security level is "4".
また、利用頻度と、セキュリティレベルとの関係は、例えば以下のようになる。すなわち、図6に示すように、前回のサービス利用から1日以内である場合、セキュリティレベル「1」である。前回のサービス利用から1週間以内である場合、セキュリティレベル「2」である。前回のサービス利用から1ヶ月以内である場合、セキュリティレベル「3」である。サービス利用が初回である場合、セキュリティレベル「4」である。 The relationship between the frequency of use and the security level is as follows, for example. That is, as shown in FIG. 6, if it is within one day from the previous use of the service, the security level is "1". If it is within one week from the previous use of the service, the security level is "2". If it is within one month from the previous use of the service, the security level is "3". When the service is used for the first time, the security level is "4".
また、図6には図示しないが、セキュリティレベルは、さらに環境音レベルに基づいて適宜設定されてもよい。なお、環境音レベルとは、ユーザがサービスを利用しようとする環境においてユーザが浴びる環境音の大きさを示す値である。環境音レベルが小さくなる(=周囲が静かになる)ほどセキュリティレベルが高くなるように設定されてもよいし、環境音の大きさが大きくなる(=周囲が騒がしくなる)ほどセキュリティレベルが高くなるように設定されてもよい。 Further, although not shown in FIG. 6, the security level may be appropriately set based on the environmental sound level. The environmental sound level is a value indicating the loudness of the environmental sound that the user receives in the environment in which the user intends to use the service. The security level may be set to be higher as the environmental sound level becomes smaller (= the surroundings become quieter), and the security level becomes higher as the environmental sound becomes louder (= the surroundings become noisy). May be set as.
また、上述した例以外にも、例えばユーザ毎にあらかじめセキュリティレベルが設定されていてもよい。具体的には、例えばユーザAのセキュリティレベルが「1」、ユーザBのセキュリティレベルが「3」のように、あらかじめ設定されていてもよい。ユーザ毎のセキュリティレベルは、例えばユーザのこれまでのサービス利用履歴に基づき算出される信用度等に応じてあらかじめ設定されればよい。 In addition to the above examples, for example, a security level may be set in advance for each user. Specifically, for example, the security level of user A may be set to "1" and the security level of user B may be set to "3". The security level for each user may be set in advance according to, for example, the credit rating calculated based on the user's service usage history so far.
さらに、上述した複数の要素毎に設定されたセキュリティレベルを組み合わせて、最終的なセキュリティレベルを決定するようにしてもよい。図6には4段階のセキュリティレベルが設定される例を示したが、5段階以上、または3段階以下のセキュリティレベルが設定されるようにしてもよい。また、要素毎に異なる段階のセキュリティレベルがそれぞれ設定されるようにしてもよい。 Further, the security level set for each of the plurality of elements described above may be combined to determine the final security level. Although FIG. 6 shows an example in which four levels of security are set, security levels of five or more levels or three or less levels may be set. In addition, different levels of security may be set for each element.
複数の要素の組み合わせによってセキュリティレベルが設定される具体例について説明する。例えば、利用場所が、周りに人が多く騒がしいことが想定されるコンビニエンスストア(図6の例ではセキュリティレベル「4」)であっても、サービス内容が5,000円の決済等、比較的少額の決済(図6の例ではセキュリティレベル「2」)である場合には、最終的なセキュリティレベルは例えば「3」に設定されればよい。 A specific example in which the security level is set by a combination of a plurality of elements will be described. For example, even if the place of use is a convenience store where many people are expected to be noisy (security level "4" in the example of Fig. 6), the service content is relatively small, such as payment of 5,000 yen. In the case of payment (security level "2" in the example of FIG. 6), the final security level may be set to, for example, "3".
認証用文字列生成部23は、このように設定されたセキュリティレベルが高いほど、より多くの認証用文字列および付加文字列を組み合わせて第2発話用文字列を生成する。具体例を挙げると、例えばセキュリティレベルが図6に示すように4段階であった場合、認証用文字列生成部23は、セキュリティレベル「4」では、上述した認証用文字列(1)〜(5)の全てと当該認証用文字列(1)〜(5)以外の付加文字列とを組み合わせて第2発話用文字列を生成する。一方、認証用文字列生成部23は、セキュリティレベル「1」では、上述した認証用文字列(1)〜(5)のうち、例えばいずれか2つのみを組み合わせて第2発話用文字列を生成すればよい。
The authentication character
なお、認証用文字列生成部23は、セキュリティレベルが比較的高い場合には、ユーザデータに基づく認証用文字列を用いて第2発話用文字列を生成すればより望ましい。
When the security level is relatively high, it is more desirable that the authentication character
以上説明した処理により、求められるセキュリティレベルが高いほど、より多くの認証用文字列および付加文字列に基づく、より複雑な第2発話用文字列が生成されることになる。 By the process described above, the higher the required security level, the more complicated the second utterance character string based on the more authentication character strings and the additional character strings will be generated.
図5の説明に戻る。ステップS8において、声紋データ生成部25は、音声認識部24が切り出した音声データに基づいて、認証用文字列に対応する第1声紋データを生成する。
Returning to the description of FIG. In step S8, the voiceprint
以下、声紋データ生成部25による第1声紋データの生成について具体例を挙げて説明する。以下の説明では、第1発話用文字列が「げんこつやまのたぬきさん」であり、第1発話用文字列が文字毎に分割され、認証用文字列として(1)「げんこつ」、(2)「たぬきやま」、(3)「たぬきのこ」、(4)「こやまさん」、(5)「げやたさ」が生成されたとする。
Hereinafter, the generation of the first voiceprint data by the voiceprint
まず、声紋データ生成部25は、ユーザが第1発話用文字列「げんこつやまのたぬきさん」を発話して得られた第1音声データに基づいて音声認識部24の文字列変換部245が切り出した音声データのうち、認証用文字列に対応する部分のみの音声データを取得する。
First, the voice pattern
具体例を挙げて説明する。声紋データ生成部25は、音声認識部24が第1発話用文字列から文字毎に生成した音声データに基づき、上記認証用文字列(1)〜(5)生成するそれぞれについて、第1声紋データを生成する。
A specific example will be described. The voiceprint
ステップS9において、音声認証装置20は、ユーザの識別情報、第1発話用文字列、第1音声データ、複数の認証用文字列、第2発話用文字列、および、認証用文字列のそれぞれに対応する第1声紋データを、互いに関連づけた話者モデルとして記憶部29に記憶する。これにより、ユーザ毎の話者モデルが記憶部29に記憶され、ユーザが音声認証システム1を利用するための音声登録処理が完了する。
In step S9, the
なお、図5に示す音声登録処理において、認証用文字列生成部23が認証用文字列を生成するステップS6は、音声認識部24が第1音声データを文字列に変換するステップS5より後であれば、どのタイミングで行われてもよい。すなわち、ステップS6は、例えば音声認識部が文字列を認識した直後に行われてもよいし、それより後(例えば、音声登録済みのユーザが音声認証のため音声認証システム1にログインした後)であってもよい。
In the voice registration process shown in FIG. 5, the authentication character
また、図5に示す音声登録処理において、声紋データ生成部25が第1声紋データを生成するステップS8は、音声認識部24が認証用文字列に対応した音声データを切り出すステップS5より後であれば、どのタイミングで行われてもよい。すなわち、ステップS8は、例えば音声認識部24から、認識された文字列に対応付けられた音声データが出力された直後に行われてもよいし、それより後(例えば、他のユーザの音声登録処理や音声認証処理が行われているバックグラウンドで実行される)であってもよい。
Further, in the voice registration process shown in FIG. 5, the step S8 in which the voiceprint
[2]音声認証処理
次に、図7を参照して、ユーザがサービスを利用しようとする際の音声認証処理について説明する。音声認証処理は、上述した音声登録処理が完了したユーザに対して行われる。
[2] Voice Authentication Process Next, a voice authentication process when a user intends to use a service will be described with reference to FIG. 7. The voice authentication process is performed on the user who has completed the above-mentioned voice registration process.
ステップS11において、音声認証装置20は、端末装置10を介して入力された、ユーザからのサービス開始要求を受信する。ユーザによるサービス開始要求は、例えば端末装置10の入力部14を介して行われる。これにより、ユーザの音声認証処理が開始される。
In step S11, the
ステップS12において、端末装置10の提示部13は、上述した音声登録処理において生成された第2発話用文字列を、ユーザに対して提示する。これとともに、提示部13は、第2発話用文字列を発話する(読み上げる)よう、ユーザに対して要求する。提示部13による第2発話用文字列の提示方法については、例えば、図5のステップS3における第1発話用文字列の提示と同様の方法を採用すればよい。
In step S12, the
このステップS12の要求に応じて、ユーザが第2発話用文字列を発話すると、端末装置10の音声データ生成部12によって、第2発話用文字列に対応する第2音声データが生成される。
When the user speaks the second utterance character string in response to the request in step S12, the voice
ステップS13において、音声認証装置20は、端末装置10から第2音声データを取得する。
In step S13, the
ステップS14において、音声認証装置20の音声認識部24は、第2音声データを文字列に変換するとともに、変換した文字列に含まれる単語(または文字、または文節)毎に音声データを切り出し、文字列と切り出した音声データとを対応付けて出力する。また、音声認識部24は、第2音声データに付加文字列に対応する部分が含まれる場合、付加文字列に対応する音声データを破棄する。
In step S14, the
以下、具体例を挙げて説明する。第2音声データが、ユーザが「なかよしたぬきのこ」と発話して得られた音声データであった場合、音声認識部24は、まず、第2音声データから、「なかよし」に対応する音声データ、「たぬき」に対応する音声データ、「の」に対応する音声データ、「こ」に対応する音声データをそれぞれ切り出す。
Hereinafter, a specific example will be described. When the second voice data is the voice data obtained by the user speaking "Nakayoshi Nuki no Ko", the
次に、音声認識部24は、記憶部29に記憶されている話者モデルを参照し、切り出した音声データの中から、認証用文字列に対応する音声データのみを抽出し、認証用文字列に対応しない音声データを除去する。なお、認証用文字列に対応しない音声データとは、付加文字列に対応する音声データである。上述した例では、音声認識部24は、「なかよし」に対応する音声データを破棄し、「たぬき」、「の」、「こ」に対応する音声データを出力する。
Next, the
図7の説明に戻る。ステップS15において、声紋データ生成部25は、ステップS14で音声認識部24が第2音声データに基づいて出力した音声データを用いて、第2声紋データを生成する。上述した例の場合、声紋データ生成部25は、「たぬき」、「の」、「こ」に対応する第2声紋データを生成する。
Returning to the description of FIG. In step S15, the voice pattern
ステップS16において、認証部26は、上述した音声登録処理において生成された第1声紋データと、ステップS15で生成した第2声紋データとを用いて、ユーザの音声認証を行う。
In step S16, the
以下、具体例を挙げて説明する。以下の例では、上述した音声登録処理において示した例のように、認証用文字列が文字列(1)「げんこつ」、(2)「たぬきやま」、(3)「たぬきのこ」、(4)「こやまさん」、(5)「げやたさ」であるとする。そして、声紋データ生成部25が、「たぬき」、「の」、「こ」に対応する第2声紋データを生成したとする。
Hereinafter, a specific example will be described. In the following example, as in the example shown in the voice registration process described above, the authentication character string is the character string (1) "Genkotsu", (2) "Tanukiyama", (3) "Tanuki no Ko", ( 4) "Koyama-san" and (5) "Geyatasa". Then, it is assumed that the voiceprint
この場合、記憶部29には、認証用文字列(3)「たぬきのこ」に対応する第1声紋データが記憶されている。認証部26は、記憶部29から当該第1声紋データを読み出すとともに、声紋データ生成部25から「たぬき」、「の」、「こ」に対応する第2声紋データを取得する。そして、認証部26は、文字列「たぬき」、「の」、「こ」のそれぞれについて第1声紋データと第2声紋データとの照合を行って一致率を算出する。認証部26は、一致率が所定閾値以上である場合に認証成功と判断し、一致率が所定閾値より低い場合には認証失敗と判断する。
In this case, the
図7の説明に戻る。ステップS17において、ステップS16での認証の結果が成功である場合(ステップS17:成功)、処理はステップS18に進み、認証の結果が失敗である場合(ステップS17:失敗)、処理はステップS19に進む。 Returning to the description of FIG. In step S17, if the authentication result in step S16 is successful (step S17: success), the process proceeds to step S18, and if the authentication result is unsuccessful (step S17: failure), the process proceeds to step S19. move on.
ステップS18において、サービス提供部27は、音声認証に成功したユーザに対して、ユーザが要求するサービスの提供を開始する。
In step S18, the
一方、ステップS19において、サービス提供部27は、音声認証に失敗したユーザに対して、認証が失敗した旨を、端末装置10の提示部13等を介して通知させる。
On the other hand, in step S19, the
<作用、効果>
以上説明したように、本発明の実施の形態に係る音声認証装置20は、第1発話用文字列に含まれる文字の少なくともいずれかを含む認証用文字列を生成する認証用文字列生成部23と、第1発話用文字列をユーザが発話して生成された第1音声データから、認証用文字列に対応する部分の声紋データを生成するとともに、認証用文字列を含む第2発話用文字列をユーザが発話して生成された第2音声データに基づいて第2声紋データを生成する声紋データ生成部25と、第1声紋データと第2声紋データとを照合してユーザの認証を行う認証部26と、を備える。
<Action, effect>
As described above, the
このような構成により、ユーザの音声をシステムに利用登録する音声登録処理時にユーザに発話させる第1発話用文字列と、ユーザを音声認証する音声認証処理時にユーザに発話させる第2発話用文字列とを、互いに異なる文字列とすることができる。これにより、例えば第1発話用文字列をユーザが発話した音声データが盗用されても、音声認証処理時に盗用されたデータで認証成功となることがない。このため、音声認証の安全性が向上する。 With such a configuration, a first utterance character string that causes the user to speak during the voice registration process for registering the user's voice in the system and a second utterance character string that causes the user to speak during the voice authentication process for voice authentication of the user. Can be different character strings from each other. As a result, for example, even if the voice data in which the user utters the first utterance character string is stolen, the stolen data during the voice authentication process does not result in successful authentication. Therefore, the security of voice authentication is improved.
また、認証用文字列を、第1発話用文字列に含まれる文字を用いて生成するとともに、第1発話用文字列をユーザに実際に発話させて得られた第1音声データに基づいて声紋データを生成する。これにより、ユーザの登録時に認証用文字列そのものを発話させる必要がない。このため、認証用文字列を複数用意した場合でも、音声登録処理時におけるユーザの負担が軽減される。従って、ユーザに負担にならない程度の長さのフレーズを1回だけ発話させるだけで、実質的に複数の認証用文字列を生成していることになる。そのため、登録に要する手間を削減でき、ユーザの利便性が向上する。 In addition, the authentication character string is generated using the characters included in the first utterance character string, and the voice pattern is based on the first voice data obtained by having the user actually speak the first utterance character string. Generate data. As a result, it is not necessary to utter the authentication character string itself when the user is registered. Therefore, even when a plurality of authentication character strings are prepared, the burden on the user during the voice registration process is reduced. Therefore, it is possible to substantially generate a plurality of authentication character strings by uttering a phrase having a length that does not burden the user only once. Therefore, the time and effort required for registration can be reduced, and the convenience of the user is improved.
すなわち、本発明の実施の形態に係る音声認証装置20によれば、音声認証の安全性向上と、ユーザ登録時のユーザの手間の軽減とを両立させることができる。
That is, according to the
また、本発明の実施の形態に係る音声認証装置20において、認証用文字列生成部23は、第1発話用文字列に含まれる文字を含む複数の認証用文字列を生成し、複数の認証用文字列の少なくともいずれかを含む第2発話用文字列を生成する。この際、認証用文字列生成部23は、あらかじめ設定されたセキュリティレベル(認証レベル)に対応した数の認証用文字列を含む第2発話用文字列を生成する。
Further, in the
このような構成により、求められる音声認証の安全性の高さに応じて、臨機応変に第2発話用文字列を生成することができる。すなわち、求められるセキュリティレベルが高い場合には、多くの認証用文字列を組み合わせて複雑な第2発話用文字列を生成することで、高い安全性を確保することができる。また、それほど高いセキュリティレベルが求められない場合には、少ない認証用文字列の組み合わせで比較的簡単な第2発話用文字列を生成することができる。これにより、音声認証処理時にユーザが実際に第2発話用文字列を発話する際に、求められるセキュリティレベルが低いにもかかわらず複雑な第2発話用文字列を発話させられることで、認証時にユーザに大きな負担が掛かる事態が回避される。従って、求められるセキュリティレベルとユーザの負担とのバランスが取れた音声認証処理を行うことができる。 With such a configuration, it is possible to flexibly generate the second utterance character string according to the required high security of voice authentication. That is, when the required security level is high, high security can be ensured by combining a large number of authentication character strings to generate a complicated second utterance character string. Further, when a very high security level is not required, a relatively simple second utterance character string can be generated by combining a small number of authentication character strings. As a result, when the user actually speaks the second utterance character string during the voice authentication process, a complicated second utterance character string can be spoken even though the required security level is low, so that the second utterance character string can be spoken at the time of authentication. A situation in which a heavy burden is placed on the user is avoided. Therefore, it is possible to perform voice authentication processing in which the required security level and the burden on the user are well-balanced.
さらに、本発明の実施の形態に係る音声認証装置20によれば、認証用文字列生成部23は、認証用文字列とは異なる付加文字列を認証用文字列に付加して第2発話用文字列を生成する。そして、認証用文字列生成部23は、あらかじめ設定されたセキュリティレベルに基づいて、第2発話用文字列を構成する認証用文字列の数を変更するとともに、付加文字列を付加するか否かを決定する。
Further, according to the
このように、生成された認証用文字列にはない文字列を付加してユーザに発話させるので、発話のバリエーションを増やすことができ、不正利用をさらに低減できる。 In this way, since the user is made to speak by adding a character string that is not included in the generated authentication character string, the variation of the utterance can be increased, and the unauthorized use can be further reduced.
また、本発明の実施の形態に係る音声認証装置20によれば、ユーザの個人情報に基づいて第1発話用文字列を生成する第1発話用文字列生成部22と、をさらに備える。
Further, according to the
このような構成により、音声登録処理時にユーザに発話させる第1発話用文字列を、ユーザの個人情報を含む文字列とすることができる。音声認証処理の際にユーザが発話する第2発話用文字列は、第1発話用文字列に基づいて生成されるため、第1発話用文字列にユーザに関する文字列が含まれることにより、ユーザが認識しやすく、発話しやすい第2発話用文字列を生成することができるようになる。 With such a configuration, the first utterance character string to be spoken by the user during the voice registration process can be a character string including the user's personal information. Since the second utterance character string uttered by the user during the voice authentication process is generated based on the first utterance character string, the user is caused by including the character string related to the user in the first utterance character string. Can generate a second utterance character string that is easy to recognize and speak.
<変形例>
以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、適宜変形して実施することが可能である。
<Modification example>
Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, and can be appropriately modified and implemented without departing from the spirit of the present invention. is there.
上述した実施の形態において、本発明の音声認証装置の例として、端末装置10において生成されたユーザの音声データを、ネットワーク30を介して取得するクラウドサーバとしての音声認証装置20について説明したが、本発明はこれに限定されない。
In the above-described embodiment, as an example of the voice authentication device of the present invention, the
本発明の音声認証装置の全ての機能が、クラウドサーバとしての音声認証装置20に搭載されている必要はなく、そのうちいずれかの機能は端末装置10側に搭載されていてもよい。例えば、第1発話用文字列生成部22、認証用文字列生成部23、音声認識部24、声紋データ生成部25、認証部26のいずれかは、端末装置10に搭載されていてもよい。
Not all the functions of the voice authentication device of the present invention need to be mounted on the
また、本発明の音声認証装置の全ての機能が、端末装置側に搭載されていてもよい。この場合、音声認証システムにおいて、端末装置以外の構成は必要なくなる。ただし、その場合でも、例えばユーザにサービスを提供するサービス提供部だけは端末装置の外部に設置してもよく、その場合、端末装置とサービス提供部とがネットワークを介して通信可能とすればよい。 Further, all the functions of the voice authentication device of the present invention may be mounted on the terminal device side. In this case, the voice authentication system does not require any configuration other than the terminal device. However, even in that case, for example, only the service providing unit that provides the service to the user may be installed outside the terminal device, and in that case, the terminal device and the service providing unit may be able to communicate via the network. ..
上述した実施の形態では、ユーザの音声のみを用いて認証を行っていたが、本発明はこれに限定されず、他の要素の認証を加えた多要素認証を行うようにしてもよい。多要素認証の例としては、例えば以下のようなものがある。すなわち、あらかじめユーザの生体情報(顔画像、虹彩画像、指紋画像、指静脈画像等)を登録しておき、ユーザによりサービス提供が要求された場合に、音声認証処理とともに、これらの生体情報を用いた認証を行う。両方が成功した場合にのみサービス提供を行うようにすれば、より認証の安全性を向上させることができる。 In the above-described embodiment, authentication is performed using only the voice of the user, but the present invention is not limited to this, and multi-factor authentication may be performed by adding authentication of other elements. Examples of multi-factor authentication include: That is, the user's biometric information (face image, iris image, fingerprint image, finger vein image, etc.) is registered in advance, and when the user requests the provision of a service, the biometric information is used together with the voice authentication process. Perform the authentication that was done. If the service is provided only when both are successful, the security of authentication can be further improved.
音声データ以外に用いられる要素は、生体情報だけではなく、知識情報(ユーザが知っていること)や所持情報(ユーザが持っているもの)であってもよい。つまり、多要素認証を行ってもよい。 The elements used other than the voice data may be not only biological information but also knowledge information (what the user knows) and possession information (what the user has). That is, multi-factor authentication may be performed.
例えば、音声とパスワードを併用して認証を行う場合、音声より先にパスワードの入力をユーザに求めることにより、パスワードに関連づけられるユーザの話者モデルを参照することができるとともに、音声認証の際に参照する話者モデルを絞り込むためにかかる時間を短縮することができる。これにより、セキュリティの高さとユーザの利便性とを両立させることができる。 For example, when authentication is performed using both voice and password, by asking the user to enter the password before voice, the user's speaker model associated with the password can be referred to, and at the time of voice authentication, the user's speaker model can be referred to. It is possible to reduce the time required to narrow down the speaker model to be referred to. As a result, both high security and user convenience can be achieved at the same time.
また、上述した実施の形態では、付加文字列は単に認証用文字列とは異なる文字列であったが、例えば付加文字列をユーザによって(ユーザデータを用いて)変化させるようにしてもよい。このような場合、音声認識結果が一致するユーザの数をより限定させることができ、それにより声紋認証、本人認証の精度向上を図ることができるようになる。 Further, in the above-described embodiment, the additional character string is simply a character string different from the authentication character string, but for example, the additional character string may be changed by the user (using user data). In such a case, the number of users whose voice recognition results match can be further limited, and thereby the accuracy of voiceprint authentication and personal authentication can be improved.
本発明は、ユーザの音声認証を行う音声認証装置または音声認証システムに好適である。 The present invention is suitable for a voice authentication device or a voice authentication system that performs voice authentication of a user.
1 音声認証システム
10 端末装置
11 通信部
12 音声データ生成部
13 提示部
14 入力部
20 音声認証装置
21 通信部
22 第1発話用文字列生成部
23 認証用文字列生成部
24 音声認識部
241 ノイズリダクション部
242 発話検出部
243 特徴量抽出部
244 音素変換部
245 文字列変換部
246 音響モデル
247 言語モデル
248 付加文字列除去部
25 声紋データ生成部
26 認証部
27 サービス提供部
28 ユーザデータ取得部
29 記憶部
30 ネットワーク
1
Claims (15)
前記所定文字列をユーザが発話して生成された第1音声データから、前記認証用文字列に対応する部分の第1声紋データを生成するとともに、前記認証用文字列を前記ユーザが発話して生成された第2音声データに基づいて第2声紋データを生成する声紋データ生成部と、
前記第1声紋データと前記第2声紋データとを照合して前記ユーザの認証を行う認証部と、
を備える、音声認証装置。 An authentication character string generator that generates an authentication character string that includes at least one of the characters included in the predetermined character string, and
From the first voice data generated by the user speaking the predetermined character string, the first voice pattern data of the portion corresponding to the authentication character string is generated, and the user speaks the authentication character string. A voice string data generation unit that generates a second voice pattern data based on the generated second voice data,
An authentication unit that authenticates the user by collating the first voiceprint data with the second voiceprint data.
A voice authentication device.
をさらに備える、
請求項1に記載の音声認証装置。 A voice recognition unit that converts voice data into a character string, divides the voice data based on the converted character string, and outputs the character string and the divided voice data.
Further prepare,
The voice authentication device according to claim 1.
請求項1または2に記載の音声認証装置。 The authentication character string generation unit generates the authentication character string by combining a plurality of characters included in the predetermined character string.
The voice authentication device according to claim 1 or 2.
前記声紋データ生成部は、前記発話用認証用文字列を前記ユーザが発話して生成された音声データに基づいて前記第2声紋データを生成する、
請求項1から3のいずれか一項に記載の音声認証装置。 The authentication character string generation unit generates a plurality of the authentication character strings different from each other, and generates an utterance authentication character string including at least one of the plurality of authentication character strings.
The voiceprint data generation unit generates the second voiceprint data based on the voice data generated by the user speaking the speech authentication character string.
The voice authentication device according to any one of claims 1 to 3.
請求項4に記載の音声認証装置。 The authentication character string generation unit adds an additional character string different from the authentication character string to the authentication character string to generate the speech authentication character string.
The voice authentication device according to claim 4.
請求項4または5に記載の音声認証装置。 The authentication character string generation unit changes the number of the authentication character strings included in the utterance authentication character string based on a preset authentication level.
The voice authentication device according to claim 4 or 5.
請求項6に記載の音声認証装置。 The authentication character string generation unit determines whether or not to add an additional character string to the authentication character string based on a preset authentication level.
The voice authentication device according to claim 6.
請求項6または7に記載の音声認証装置。 The authentication level is set in relation to the loudness of the surrounding environmental sound at the time of voice authentication by the authentication unit.
The voice authentication device according to claim 6 or 7.
請求項6から8のいずれか一項に記載の音声認証装置。 The authentication level is set in relation to the content of the service provided to the user when the user is successfully authenticated.
The voice authentication device according to any one of claims 6 to 8.
請求項6から9のいずれか一項に記載の音声認証装置。 The authentication level is set in relation to the location of the service provided to the user if the user is successfully authenticated.
The voice authentication device according to any one of claims 6 to 9.
請求項6から10のいずれか一項に記載の音声認証装置。 The authentication level is set in relation to the execution frequency of the service provided to the user when the user is successfully authenticated.
The voice authentication device according to any one of claims 6 to 10.
をさらに備える、請求項1から11のいずれか一項に記載の音声認証装置。 The voice according to any one of claims 1 to 11, further comprising a service providing unit that permits the user to provide a predetermined service when the user is successfully authenticated by the authentication unit. Authentication device.
をさらに備える、請求項1から12のいずれか一項に記載の音声認証装置。 A predetermined character string generation unit that generates the predetermined character string based on the personal information of the user.
The voice authentication device according to any one of claims 1 to 12, further comprising.
前記ユーザに対して発話を求める文字列を提示する提示部と、
所定文字列に含まれる文字の少なくともいずれかを含む認証用文字列を生成する認証用文字列生成部と、
前記所定文字列を前記ユーザが発話して生成された第1音声データから、前記認証用文字列に対応する部分の第1声紋データを生成するとともに、前記認証用文字列を前記ユーザが発話して生成された第2音声データに基づいて第2声紋データを生成する声紋データ生成部と、
前記第1声紋データと前記第2声紋データとを照合して前記ユーザの認証を行う認証部と、
を備える、音声認証システム。 A voice data generator that generates voice data based on the user's utterance,
A presentation unit that presents a character string that asks the user to speak, and
An authentication character string generator that generates an authentication character string that includes at least one of the characters included in the predetermined character string, and
From the first voice data generated by the user speaking the predetermined character string, the first voice pattern data of the portion corresponding to the authentication character string is generated, and the user speaks the authentication character string. A voice string data generation unit that generates a second voice pattern data based on the second voice data generated in
An authentication unit that authenticates the user by collating the first voiceprint data with the second voiceprint data.
A voice authentication system equipped with.
前記所定文字列をユーザが発話して生成された第1音声データから、前記認証用文字列に対応する部分の第1声紋データを生成し、
前記認証用文字列を前記ユーザが発話して生成された第2音声データに基づいて第2声紋データを生成し、
前記第1声紋データおよび前記第2声紋データを用いて前記ユーザの認証を行う、
音声認証方法。 Generates an authentication string that contains at least one of the characters contained in the given string,
From the first voice data generated by the user speaking the predetermined character string, the first voiceprint data of the portion corresponding to the authentication character string is generated.
The second voiceprint data is generated based on the second voice data generated by the user speaking the authentication character string.
The user is authenticated using the first voiceprint data and the second voiceprint data.
Voice authentication method.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019187784A JP7339116B2 (en) | 2019-10-11 | 2019-10-11 | Voice authentication device, voice authentication system, and voice authentication method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019187784A JP7339116B2 (en) | 2019-10-11 | 2019-10-11 | Voice authentication device, voice authentication system, and voice authentication method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021064110A true JP2021064110A (en) | 2021-04-22 |
| JP7339116B2 JP7339116B2 (en) | 2023-09-05 |
Family
ID=75486298
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019187784A Active JP7339116B2 (en) | 2019-10-11 | 2019-10-11 | Voice authentication device, voice authentication system, and voice authentication method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7339116B2 (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102446676B1 (en) * | 2022-05-02 | 2022-09-26 | (주) 아하 | Smart table for processing voice recognition and remote control based on ai and iot and operating method therefor |
| JP2023034164A (en) * | 2021-08-30 | 2023-03-13 | カシオ計算機株式会社 | Electronic apparatus, authentication method, and authentication program |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7537216B2 (en) * | 2020-09-30 | 2024-08-21 | 富士フイルムビジネスイノベーション株式会社 | Information processing device and program |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003030152A (en) * | 2001-07-12 | 2003-01-31 | Mitsubishi Electric Corp | Facility management system |
| JP2003302999A (en) * | 2002-04-11 | 2003-10-24 | Advanced Media Inc | Individual authentication system by voice |
| JP2008009615A (en) * | 2006-06-28 | 2008-01-17 | Aisin Aw Co Ltd | Security system control device and security system control method |
| JPWO2006027844A1 (en) * | 2004-09-10 | 2008-05-08 | 三菱電機株式会社 | Speaker verification device |
| JP2014182270A (en) * | 2013-03-19 | 2014-09-29 | Yahoo Japan Corp | Information processor and information processing method |
| JP2015064722A (en) * | 2013-09-25 | 2015-04-09 | 大日本印刷株式会社 | Entrance / exit management device, entrance / exit management method, and program |
| JP2017120576A (en) * | 2015-12-28 | 2017-07-06 | 大日本印刷株式会社 | User authentication system, user authentication method, and program |
-
2019
- 2019-10-11 JP JP2019187784A patent/JP7339116B2/en active Active
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003030152A (en) * | 2001-07-12 | 2003-01-31 | Mitsubishi Electric Corp | Facility management system |
| JP2003302999A (en) * | 2002-04-11 | 2003-10-24 | Advanced Media Inc | Individual authentication system by voice |
| JPWO2006027844A1 (en) * | 2004-09-10 | 2008-05-08 | 三菱電機株式会社 | Speaker verification device |
| JP2008009615A (en) * | 2006-06-28 | 2008-01-17 | Aisin Aw Co Ltd | Security system control device and security system control method |
| JP2014182270A (en) * | 2013-03-19 | 2014-09-29 | Yahoo Japan Corp | Information processor and information processing method |
| JP2015064722A (en) * | 2013-09-25 | 2015-04-09 | 大日本印刷株式会社 | Entrance / exit management device, entrance / exit management method, and program |
| JP2017120576A (en) * | 2015-12-28 | 2017-07-06 | 大日本印刷株式会社 | User authentication system, user authentication method, and program |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2023034164A (en) * | 2021-08-30 | 2023-03-13 | カシオ計算機株式会社 | Electronic apparatus, authentication method, and authentication program |
| JP7729118B2 (en) | 2021-08-30 | 2025-08-26 | カシオ計算機株式会社 | Electronic device, authentication method and authentication program |
| KR102446676B1 (en) * | 2022-05-02 | 2022-09-26 | (주) 아하 | Smart table for processing voice recognition and remote control based on ai and iot and operating method therefor |
| KR102460576B1 (en) * | 2022-05-02 | 2022-10-28 | (주) 아하 | Smart table of processing remote control and setting user authority based on voice recognition that converges ai and iot and operating method therefor |
Also Published As
| Publication number | Publication date |
|---|---|
| JP7339116B2 (en) | 2023-09-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN101124623B (en) | Voice authentication system and method | |
| US7447632B2 (en) | Voice authentication system | |
| JP6561219B1 (en) | Speaker verification | |
| AU2013203139B2 (en) | Voice authentication and speech recognition system and method | |
| US10027662B1 (en) | Dynamic user authentication | |
| US6671672B1 (en) | Voice authentication system having cognitive recall mechanism for password verification | |
| JP3542026B2 (en) | Speech recognition system, speech recognition method, and computer-readable recording medium | |
| US20170236520A1 (en) | Generating Models for Text-Dependent Speaker Verification | |
| WO2016092807A1 (en) | Speaker identification device and method for registering features of registered speech for identifying speaker | |
| CN112309406A (en) | Voiceprint registration method, device and computer-readable storage medium | |
| JPH1173195A (en) | Method for authenticating speaker's proposed identification | |
| JPH09230887A (en) | Speaker verification system with respect to vocalized sound and method therefor | |
| JP3703991B2 (en) | Method and apparatus for dynamic speech recognition using free speech scoring method | |
| JP7339116B2 (en) | Voice authentication device, voice authentication system, and voice authentication method | |
| JP4318475B2 (en) | Speaker authentication device and speaker authentication program | |
| US20040019488A1 (en) | Email address recognition using personal information | |
| US11430434B1 (en) | Intelligent privacy protection mediation | |
| JP2004094158A (en) | Voiceprint authentication device using vowel search | |
| JPH10173644A (en) | Authentication method | |
| JPH1173196A (en) | Method for authenticating speaker's proposed identification | |
| JP2005512246A (en) | Method and system for non-intrusive verification of speakers using behavior models | |
| JP4245948B2 (en) | Voice authentication apparatus, voice authentication method, and voice authentication program | |
| WO2006027844A1 (en) | Speaker collator | |
| JPH11311991A (en) | Device and method for forming voice recognition dictionary and recording medium recording its program | |
| Lapere | of deliverable Vocal Password-Based User Authentication |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220808 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230524 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230530 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230724 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230808 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230824 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7339116 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |