JP2002049390A - Speech recognition method and server and speech recognition system - Google Patents
Speech recognition method and server and speech recognition systemInfo
- Publication number
- JP2002049390A JP2002049390A JP2000237803A JP2000237803A JP2002049390A JP 2002049390 A JP2002049390 A JP 2002049390A JP 2000237803 A JP2000237803 A JP 2000237803A JP 2000237803 A JP2000237803 A JP 2000237803A JP 2002049390 A JP2002049390 A JP 2002049390A
- Authority
- JP
- Japan
- Prior art keywords
- server
- client
- information
- voice
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】
【課題】 処理能力の低いクライアントで認識できなか
った音声情報を処理能力の高いサーバで認識し、その認
識結果を利用すること。
【解決手段】 クライアント1に入力された音声入力信
号00は、デジタル音声信号に変換されサーバ2に送信
される。サーバ2では、クライアントからの音声情報を
音声認識処理し、前記音声認識処理によって所定の認識
結果が得られたか否かを判断し、所定の認識結果が得ら
れた場合は、クライアント1に所定の認識結果を送信
し、所定の認識結果が得られなかった場合は、音声情報
に関して当該サーバよりも多い音声認識のための情報を
有する別のサーバにクライアント1からの音声情報を転
送し、別のサーバにおいて、前記音声情報を音声認識処
理し、その結果をクライアント1に送信する。
(57) [Summary] [PROBLEMS] To recognize voice information that could not be recognized by a client with low processing capability by a server with high processing capability and use the recognition result. An audio input signal (00) input to a client (1) is converted into a digital audio signal and transmitted to a server (2). The server 2 performs voice recognition processing on the voice information from the client, determines whether or not a predetermined recognition result is obtained by the voice recognition processing. If the recognition result is transmitted and the predetermined recognition result is not obtained, the voice information from the client 1 is transferred to another server having more information for voice recognition than the server with respect to the voice information, and another In the server, the voice information is subjected to voice recognition processing, and the result is transmitted to the client 1.
Description
【0001】[0001]
【発明の属する技術分野】本願発明は、音声認識方法お
よびサーバならびに音声認識システムに関し、特に、ク
ライアント/サーバ方式の分散処理環境において、処理
能力の低いクライアントで認識できなかった音声情報を
処理能力の高いサーバで認識することを特徴とする音声
認識方法およびサーバならびに音声認識システムに関す
るものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition method, a server, and a speech recognition system. More particularly, in a distributed processing environment of a client / server system, speech information that cannot be recognized by a client having a low processing capacity is processed. The present invention relates to a speech recognition method, a server, and a speech recognition system characterized in that recognition is performed by a high server.
【0002】[0002]
【従来の技術】一般に、音声認識システムは、話者が発
声した音声サンプルをある特徴パラメータの系列に変換
する音響分析部と、音響分析部で得られた特徴パラメー
タの系列を予めメモリーやハードディスクなどの記憶装
置に蓄積した語彙単語の特徴パラメータに関する情報と
照合して、最も類似度の高い音声を認識結果とする音声
照合部の2つの部分から構成される。2. Description of the Related Art Generally, a speech recognition system includes an acoustic analysis unit for converting a speech sample uttered by a speaker into a sequence of characteristic parameters, and a sequence of characteristic parameters obtained by the acoustic analysis unit in a memory or a hard disk. Of the vocabulary words stored in the storage device of the vocabulary word, and a speech matching unit that recognizes the speech having the highest similarity as a recognition result.
【0003】音声サンプルをある特徴パラメータの系列
に変換する音響分析方法としては、ケプストラム分析や
線形予測分析などが知られており、「音声・音情報のデ
ィジタル信号処理」(鹿野清宏、中村哲、伊勢史郎共
著、(株)昭晃堂)にも詳述されている。音声認識の中
で、不特定話者の音声を認識する技術を一般に不特定話
者音声認識と呼ぶ。不特定話者音声認識においては、語
彙単語の特徴パラメータに関する情報が予め記憶装置に
蓄積されているため、特定話者音声認識のようにユーザ
ーが音声認識させたい単語を登録するという作業は発生
しない。As an acoustic analysis method for converting a speech sample into a sequence of characteristic parameters, cepstrum analysis and linear prediction analysis are known, and "digital signal processing of speech / sound information" (Kiyohiro Kano, Satoshi Nakamura, It is also described in detail in Shiro Ise, co-authored by Shokodo. In speech recognition, a technique for recognizing the voice of an unspecified speaker is generally referred to as unspecified speaker speech recognition. In the speaker-independent speaker recognition, since the information on the characteristic parameters of the vocabulary words is stored in the storage device in advance, there is no need to register a word that the user wants to perform voice recognition as in specific speaker speech recognition. .
【0004】また、語彙単語の特徴パラメータに関する
情報の作成およびその情報と入力された音声から変換さ
れた特徴パラメータの系列との音声照合方法としては、
隠れマルコフモデル(Hidden Markov Model, HMM)による
方法が一般に用いられている。HMMによる方法におい
ては、音節、半音節、音韻、音響イベントなどの音声単
位がHMMによりモデル化される。音声単位のHMMに
よるモデル化については、上記「音声・音情報のディジ
タル信号処理」に詳しく述べられている。また、上記
「音声・音情報のディジタル信号処理」の第4章に記載
されているViterbiアルゴリズムにより、当業者
は不特定話者音声認識装置を容易に構成することができ
る。[0004] Further, as a method of generating information on characteristic parameters of vocabulary words and a method of voice collation between the information and a sequence of characteristic parameters converted from input voice,
A method based on a Hidden Markov Model (HMM) is generally used. In the HMM method, speech units such as syllables, syllables, phonemes, and acoustic events are modeled by the HMM. The modeling of the speech unit by the HMM is described in detail in the above-mentioned "digital signal processing of speech / sound information". Also, by using the Viterbi algorithm described in Chapter 4 of "Digital Signal Processing of Voice / Sound Information", those skilled in the art can easily configure an unspecified speaker voice recognition device.
【0005】一方、デジタル方式の携帯電話の中には、
音声によるダイアリング機能を実現するために不特定話
者音声認識装置としての機能を内在しているものが既に
商品化されている。On the other hand, some digital mobile phones include:
Devices that have a function as an unspecified speaker voice recognition device for realizing a voice dialing function have already been commercialized.
【0006】例えば、NTT移動通信網(株)のi−m
odeに代表されるように、携帯電話は音声通話の目的
だけではなく、インターネットや電子メールのアクセス
端末としての需要が急速に拡がっている。また、IMT
−2000やcdma2000の規格に対応した次世代
携帯電話の商用化も来年以降に計画されており、携帯電
話におけるインターネットや電子メールのアクセス需要
はますます増大するものと思われる。[0006] For example, NTT Mobile Communication Network Co., Ltd. im
As represented by the "mode", the demand for mobile phones not only for voice calls but also as access terminals for the Internet and e-mail is rapidly expanding. Also, IMT
Commercialization of next-generation mobile phones conforming to the -2000 and cdma2000 standards is also planned for next year or later, and the demand for access to the Internet and e-mail by mobile phones is expected to increase more and more.
【0007】[0007]
【発明が解決しようとする課題】しかしながら、携帯電
話のマンマシンインタフェースとしては、サイズ、形状
などの物理的な制約から依然としてボタン入力が主流で
あり、インターネットや電子メールのアクセス手段とし
ては使い勝手が悪い。この不具合を解消するために、音
声認識技術を適用した音声インタフェース機能の搭載が
待望されている。However, as a man-machine interface of a mobile phone, button input is still mainstream due to physical restrictions such as size and shape, and it is not easy to use as an Internet or e-mail access means. . In order to solve this problem, it is desired to provide a voice interface function using a voice recognition technology.
【0008】携帯電話は、バッテリー寿命の観点から、
搭載されているCPUの処理能力が低く、また、CPU
の動作クロックも低く押さえられている。従って、携帯
電話内の音声認識でサポートされる機能にも限界があ
る。具体的には、認識対象語彙が十分大きくない場合
に、その語彙に含まれない単語を含む音声をしゃべった
場合には、その単語は原理的に認識されないし、その単
語を語彙に含まれる別の単語に誤認識するということが
しばしば起こる。[0008] From the viewpoint of battery life, mobile phones are
The processing power of the installed CPU is low,
Operating clock is also kept low. Therefore, the functions supported by the voice recognition in the mobile phone are also limited. Specifically, if the vocabulary to be recognized is not sufficiently large, and if the user speaks a speech that includes a word that is not included in the vocabulary, the word is not recognized in principle, and the word is not recognized. It often happens that the word is misrecognized.
【0009】そこで本発明が解決しようとする課題は、
携帯電話のような処理能力の低いCPUしか持たないク
ライアントで発声された音声がクライアントの音声認識
機能でサポートされない語彙を含む場合に、クライアン
トがその音声の情報を処理能力の高いCPUを持つサー
バに転送し、音声認識のサービスを受けることができる
ようにすることである。Therefore, the problem to be solved by the present invention is as follows:
When a voice uttered by a client having only a low processing capacity CPU such as a mobile phone includes a vocabulary that is not supported by the voice recognition function of the client, the client transmits the voice information to a server having a high processing capacity CPU. Transfer and receive voice recognition services.
【0010】さらに、そのサーバの音声認識機能でサポ
ートされない語彙が音声情報の中に含まれていると判断
される場合は、そのサーバは音声情報をさらに大きな語
彙をサポートする上位のサーバに転送し、音声認識のサ
ービスを委ねることができるようにすることも本発明が
解決しようとする課題である。[0010] Further, if it is determined that the vocabulary not supported by the voice recognition function of the server is included in the voice information, the server transfers the voice information to a higher-level server supporting a larger vocabulary. It is another object of the present invention to be able to entrust a voice recognition service.
【0011】[0011]
【課題を解決するための手段】請求項1の発明は、段階
的により多くの音声認識のための情報を有する複数のサ
ーバの少なくとも1つを使用して、通信手段を介して受
信したクライアントからの音声情報を音声認識する音声
認識方法であって、前記クライアントからの音声情報に
対する音声認識に関して所定の認識結果が得られるま
で、前記音声情報に関して、第1のサーバから、より多
くの音声認識のための情報を有する少なくとも1つの上
位のサーバにおいて、前記クライアントからの音声情報
に対する音声認識を順次実行し、所定の認識結果が得ら
れたサーバから当該認識結果を通信手段を介して前記ク
ライアントに送信することを特徴とする。SUMMARY OF THE INVENTION According to the present invention, a client received via a communication means using at least one of a plurality of servers having information for speech recognition in a stepwise manner. A voice recognition method for recognizing voice information of the voice information, wherein until a predetermined recognition result is obtained for voice recognition of voice information from the client, more voice recognition is performed from the first server with respect to the voice information. At least one higher-level server having information for performing the voice recognition for the voice information from the client in order, and transmitting the recognition result to the client via the communication unit from the server having obtained a predetermined recognition result. It is characterized by doing.
【0012】請求項2の発明は、請求項1において、前
記所定の認識結果が得られなかった第1のサーバから、
前記音声情報に関して当該第1のサーバの次に多くの音
声認識のための情報を有する上位のサーバに対して転送
する情報は、前記クライアントからの音声情報および当
該第1のサーバにおける認識結果の少なくとも一方を含
むことを特徴とする。[0012] According to a second aspect of the present invention, in the first aspect, the first server from which the predetermined recognition result is not obtained,
The information to be transferred to the higher-level server having information for voice recognition next to the first server with respect to the voice information is at least the voice information from the client and the recognition result in the first server. It is characterized by including one.
【0013】請求項3の発明は、請求項1または2にお
いて、前記所定の認識結果は、前記音声情報に最も類似
する単語の類似度を所定のしきい値と比較した結果に基
づいて得られることを特徴とする。According to a third aspect of the present invention, in the first or second aspect, the predetermined recognition result is obtained based on a result of comparing a similarity of a word most similar to the voice information with a predetermined threshold value. It is characterized by the following.
【0014】請求項4の発明は、請求項1〜3のいずれ
かにおいて、前記クライアントから送信された音声情報
は、アナログ音声信号から変換されたデジタル音声信号
の系列であることを特徴とする。According to a fourth aspect of the present invention, in any one of the first to third aspects, the audio information transmitted from the client is a sequence of a digital audio signal converted from an analog audio signal.
【0015】請求項5の発明は、請求項1〜3のいずれ
かにおいて、前記クライアントから送信された音声情報
は、前記デジタル音声信号から抽出された音響パラメー
タの系列であることを特徴とする。According to a fifth aspect of the present invention, in any one of the first to third aspects, the audio information transmitted from the client is a sequence of audio parameters extracted from the digital audio signal.
【0016】請求項6の発明は、請求項1〜3のいずれ
かにおいて、前記クライアントから送信された音声情報
は、前記音響パラメータから変換された音声単位モデル
の固有番号の系列であることを特徴とする。According to a sixth aspect of the present invention, in any one of the first to third aspects, the audio information transmitted from the client is a series of unique numbers of an audio unit model converted from the audio parameters. And
【0017】請求項7の発明は、請求項1〜6のいずれ
かにおいて、前記クライアントと前記サーバとは同一構
成の装置であることを特徴とする。According to a seventh aspect of the present invention, in any one of the first to sixth aspects, the client and the server are devices having the same configuration.
【0018】請求項8の発明は、請求項1〜7のいずれ
かの音声認識方法が適用されるサーバにおいて、音声認
識処理に要した時間を計測し、前記計測時間と、前記音
声情報に関する音声認識のための情報の量とに基づいて
使用料金を計算する音声認識サーバにおける使用料金計
算法を特徴とする。According to an eighth aspect of the present invention, there is provided a server to which the voice recognition method according to any one of the first to seventh aspects is applied, wherein the time required for the voice recognition processing is measured, It is characterized by a usage fee calculation method in a speech recognition server that calculates a usage fee based on the amount of information for recognition.
【0019】請求項9の発明は、通信手段を介して伝送
されたクライアントからの音声情報を受信して音声認識
するサーバであって、受信した前記クライアントからの
音声情報を音声認識処理する音声認識処理手段と、前記
音声認識処理手段によって所定の認識結果が得られたか
否かを判断する判断手段と、前記判断によって所定の認
識結果が得られた場合は、前記クライアントに通信手段
を介して前記所定の認識結果を送信し、前記判断によっ
て所定の認識結果が得られなかった場合は、前記音声情
報に関して当該サーバよりも多い音声認識のための情報
を有する上位のサーバに通信手段を介して前記クライア
ントからの音声情報を転送する出力手段とを具えたこと
を特徴とする。According to a ninth aspect of the present invention, there is provided a server for receiving voice information from a client transmitted via a communication means and recognizing the voice, wherein the voice recognition performs voice recognition processing on the received voice information from the client. Processing means, determining means for determining whether a predetermined recognition result has been obtained by the voice recognition processing means, and when the predetermined recognition result has been obtained by the determination, the client to the client via the communication means When the predetermined recognition result is transmitted and the predetermined recognition result is not obtained by the determination, the higher-level server having more information for voice recognition than the server with respect to the voice information is transmitted through the communication unit. Output means for transferring voice information from the client.
【0020】請求項10の発明は、請求項9において、
前記判断手段は、前記音声情報に最も類似する単語の類
似度を所定のしきい値と比較した結果に基づいて前記判
断を行うことを特徴とする。According to a ninth aspect of the present invention, in the ninth aspect,
The determination unit is configured to make the determination based on a result of comparing a similarity of a word most similar to the voice information with a predetermined threshold.
【0021】請求項11の発明は、請求項9において、
前記受信手段は、クライアントから送信された音声情報
とクライアントアドレスから構成されるクライアント送
信情報を受信し、前記音声認識処理手段は、前記受信手
段が受信した音声情報を入力して音声認識を行い、音声
情報に最も類似する単語の固有番号とその類似度からな
る認識結果情報を出力し、前記出力手段は、前記受信手
段が受信したクライアント送信情報から取り出されたク
ライアントアドレスを保存するクライアントアドレス保
存手段と、前記クライアントアドレス保存手段に保存さ
れたクライアントアドレスを参照して認識結果を当該ク
ライアントに返信するための認識結果返信手段と、前記
上位のサーバのアドレスを保存する上位サーバアドレス
保存手段と、前記受信手段が受信した音声情報および前
記クライアントアドレス保存手段に保存されたクライア
ントアドレスから構成されるサーバ転送情報を前記上位
サーバアドレス保存手段に保存された上位のサーバのア
ドレスを参照して当該上位のサーバに転送するための音
声情報転送手段とを有し、前記判断手段は、前記音声認
識処理手段から出力された類似度を予め与えられたしき
い値と比較し、類似度がしきい値以上の場合、および類
似度がしきい値未満の場合であって前記上位サーバアド
レス保存手段に上位のサーバのアドレスが格納されてい
ない場合は、前記音声認識処理手段からの認識結果をク
ライアントに返信するように認識結果返信手段を制御
し、類似度がしきい値未満の場合であって前記上位サー
バアドレス保存手段に上位のサーバのアドレスが保存さ
れている場合は、前記サーバ転送情報を当該上位のサー
バに転送するように前記音声情報転送手段を制御するこ
とを特徴とする。According to a twelfth aspect of the present invention, in the ninth aspect,
The receiving means receives client transmission information composed of voice information and a client address transmitted from a client, the voice recognition processing means performs voice recognition by inputting the voice information received by the receiving means, Client address storage means for outputting recognition result information comprising a unique number of a word most similar to voice information and the degree of similarity thereof, and the output means for storing a client address extracted from client transmission information received by the reception means A recognition result returning unit for returning a recognition result to the client by referring to the client address stored in the client address storage unit, an upper server address storage unit for storing the address of the upper server, The audio information received by the receiving means and the client Voice information transfer means for transferring server transfer information composed of the client address stored in the address storage means to the upper server by referring to the address of the upper server stored in the upper server address storage means; The determination unit compares the similarity output from the speech recognition processing unit with a predetermined threshold, and when the similarity is equal to or greater than the threshold, and when the similarity is less than the threshold. If the address of the upper server is not stored in the upper server address storage means, the recognition result returning means is controlled to return the recognition result from the voice recognition processing means to the client, If the degree is less than the threshold value and the address of the upper server is stored in the upper server address storage means, the server transfer information And controlling the voice information transfer means to transfer to the server of the upper.
【0022】請求項12の発明は、音声情報を送信する
クライアントと、前記クライアントからの音声情報を通
信手段を介して受信する請求項9〜11のいずれかの音
声認識サーバとを具えた音声認識システムを特徴とす
る。According to a twelfth aspect of the present invention, there is provided a voice recognition system comprising a client for transmitting voice information, and a voice recognition server according to any one of claims 9 to 11, which receives voice information from the client via communication means. Features the system.
【0023】[0023]
【発明の実施の形態】一般に、音声認識においては、入
力音声は音響分析により、ケプストラムなどの音響パラ
メータに変換され、その後、公知のViterbiアル
ゴリズムにより、語彙に含まれる単語との照合が行われ
る。照合においては、音響パラメータと語彙に含まれる
全ての単語のモデルとの類似度が算出され、最も類似度
が大きい単語が認識結果として選択される。DESCRIPTION OF THE PREFERRED EMBODIMENTS In general, in speech recognition, input speech is converted into acoustic parameters such as cepstrum by acoustic analysis, and then collated with words included in the vocabulary by a known Viterbi algorithm. In the matching, the similarity between the acoustic parameters and the models of all the words included in the vocabulary is calculated, and the word having the highest similarity is selected as the recognition result.
【0024】音声認識装置でサポートされる語彙の大き
さは、音声認識装置に内蔵されるCPUの処理能力およ
びその動作クロックにより決定される。The size of the vocabulary supported by the speech recognition device is determined by the processing capability of the CPU incorporated in the speech recognition device and its operation clock.
【0025】携帯電話は、バッテリ寿命の観点から、搭
載されているCPUの処理能力が低く、また、CPUの
動作クロックも低く押さえられているため、サポートで
きる語彙サイズは100単語程度と小さい。The cellular phone has a low processing capacity of a CPU mounted thereon and a low operation clock of the CPU from the viewpoint of battery life, and thus the vocabulary size that can be supported is as small as about 100 words.
【0026】一方、例えば、サーバを構成するようなコ
ンピュータシステムに搭載されるCPUは携帯電話のよ
うな制約がないため、最高の処理能力を持つCPUが採
用され、動作クロックも極めて高く設定される。従っ
て、サポートできる語彙サイズも数万単語程度と極めて
大きくすることが可能である。On the other hand, for example, the CPU mounted on a computer system such as a server does not have the restriction of a cellular phone, so a CPU having the highest processing capability is employed, and the operation clock is set extremely high. . Accordingly, the vocabulary size that can be supported can be extremely large, on the order of tens of thousands of words.
【0027】一般に、入力音声の中に含まれている単語
が、音声認識装置でサポートされていない場合、照合に
おける前述の類似度は小さな値となる。Generally, when a word included in the input speech is not supported by the speech recognition device, the above-mentioned similarity in the collation has a small value.
【0028】最も大きな類似度を持つ語彙単語の類似度
と予め与えられたしきい値とを比較し、その類似度がし
きい値よりも大きければ、入力音声に含まれている単語
は、音声認識装置がサポートしている語彙に含まれると
判断できる。この場合には、その類似度を与える単語を
認識結果とすれば良い。The similarity of the vocabulary word having the highest similarity is compared with a predetermined threshold value. If the similarity is greater than the threshold value, the word included in the input speech is recognized as the speech. It can be determined that it is included in the vocabulary supported by the recognizer. In this case, the word giving the similarity may be used as the recognition result.
【0029】一方、類似度がしきい値よりも小さけれ
ば、入力音声に含まれている単語は、音声認識装置がサ
ポートしている語彙に含まれていない可能性が高いと判
断される。この入力音声に対して、正確な音声認識を行
うためには、より大きな語彙をサポートする音声認識装
置に処理を委ねる必要がある。On the other hand, if the similarity is smaller than the threshold value, it is determined that there is a high possibility that the word included in the input speech is not included in the vocabulary supported by the speech recognition device. In order to perform accurate speech recognition on this input speech, it is necessary to entrust processing to a speech recognition device that supports a larger vocabulary.
【0030】そこで、より大きな語彙をサポートする音
声認識装置の所在(アドレス)が既知の場合は、入力音
声から抽出された音声情報と自分のアドレスをその音声
認識装置に転送して、音声認識処理を要求すればよい。If the location (address) of the speech recognition device that supports a larger vocabulary is known, the speech information extracted from the input speech and its own address are transferred to the speech recognition device, and the speech recognition process is performed. You can request
【0031】以後、音声認識処理を要求する側をクライ
アントと呼び、音声認識処理を要求される側をサーバと
呼ぶ。Hereinafter, the side requesting the voice recognition processing is called a client, and the side requesting the voice recognition processing is called a server.
【0032】サーバは、上記と同様に類似度を計算し、
最も大きな類似度を持つ語彙単語の類似度がしきい値よ
りも大きければ、入力音声に含まれている単語は、サー
バがサポートしている語彙に含まれると判断できるの
で、その類似度を与える単語を認識結果として、クライ
アントに返送する。The server calculates the similarity in the same manner as described above,
If the similarity of the vocabulary word having the highest similarity is greater than the threshold, it can be determined that the word included in the input speech is included in the vocabulary supported by the server, and the similarity is given. The word is returned to the client as a recognition result.
【0033】一方、類似度がしきい値よりも小さけれ
ば、より大きな語彙をサポートするサーバの所在(アド
レス)が未知か既知かで処理が2つに分かれる。On the other hand, if the similarity is smaller than the threshold, the process is divided into two depending on whether the location (address) of the server supporting a larger vocabulary is unknown or known.
【0034】未知の場合は、クライアントに対して、現
在得られている認識結果をクライアントに対し返送す
る。If unknown, the currently obtained recognition result is returned to the client.
【0035】既知の場合は、より大きな語彙をサポート
するサーバに対して、入力音声から抽出された音声情報
と自分のアドレスをその音声認識装置に転送して、音声
認識処理を要求すればよい。If it is known, it is only necessary to transfer the speech information extracted from the input speech and its own address to the server that supports a larger vocabulary, and request speech recognition processing.
【0036】本発明によれば、クライアントで発声され
た入力音声に含まれる単語の数が少ない場合は、小さな
語彙をサポートするサーバで音声認識処理が完結する。
もし、クライアントで発声された入力音声に含まれる単
語の数が多い場合は、より大きな語彙をサポートするサ
ーバに音声認識処理を委ねることができる。従って、入
力音声に含まれる単語の数に応じて、音声認識処理を複
数のサーバに分散させて処理することが可能である。こ
れにより、ある特定のサーバに音声認識処理のリクエス
トのトラフィックが集中することを防ぐことが可能にな
る。According to the present invention, when the number of words included in the input speech uttered by the client is small, the speech recognition processing is completed by the server supporting a small vocabulary.
If the number of words included in the input speech uttered by the client is large, the speech recognition processing can be entrusted to a server that supports a larger vocabulary. Therefore, it is possible to distribute the speech recognition processing to a plurality of servers according to the number of words included in the input speech. As a result, it is possible to prevent traffic of the request for the voice recognition processing from being concentrated on a specific server.
【0037】(実施例)本発明の実施例を、図1および
図2に基づいて説明する。(Embodiment) An embodiment of the present invention will be described with reference to FIGS.
【0038】まず、音声の入力信号00は、クライアン
トに対して入力される。入力された入力信号00は、ク
ライアントに内蔵されるADコンバータによりデジタル
音声信号に変換される。First, the voice input signal 00 is input to the client. The inputted input signal 00 is converted into a digital audio signal by an AD converter built in the client.
【0039】クライアント1は、サーバ2に対し、クラ
イアント送信情報11を送信する。クライアント送信情
報11は、デジタル音声信号から得られる音声情報22
とクライアントアドレス33から構成される。ここで、
クライアントアドレスは、携帯電話番号などのクライア
ントを特定可能なID番号などを指す。また、送信は、
携帯電話網の通信プロトコルに従って行われる。The client 1 transmits the client transmission information 11 to the server 2. Client transmission information 11 includes audio information 22 obtained from a digital audio signal.
And the client address 33. here,
The client address indicates an ID number or the like that can identify a client such as a mobile phone number. In addition, transmission
This is performed according to the communication protocol of the mobile phone network.
【0040】携帯電話網を介してクライアント送信情報
11を受信したサーバ2は、音声情報受信手段aにおい
て、クライアント送信情報11を音声情報22とクライ
アントアドレス33に分解し、音声情報22を音声認識
手段c及び音声情報転送手段eに出力するとともに、ク
ライアントアドレス33をクライアントアドレス保存手
段bに格納する。The server 2 which has received the client transmission information 11 via the mobile telephone network decomposes the client transmission information 11 into voice information 22 and a client address 33 in the voice information receiving means a, and converts the voice information 22 into voice recognition means. c and the voice information transfer means e, and the client address 33 is stored in the client address storage means b.
【0041】音声情報22を受け取った音声認識手段c
は、公知のViterbiアルゴリズムなどにより、照
合処理を行い、最も大きな類似度を持つ単語の固有番号
とその類似度から構成される認識結果情報44を類似度
比較手段dと認識結果返信手段gに出力する。Voice recognition means c receiving voice information 22
Performs a matching process using a known Viterbi algorithm or the like, and outputs recognition result information 44 composed of the unique number of the word having the highest similarity and the similarity to the similarity comparison means d and the recognition result reply means g. I do.
【0042】類似度比較手段dは、音声認識手段cから
受け取った認識結果情報44に含まれる類似度と予め設
定されたしきい値を比較する。The similarity comparison means d compares the similarity contained in the recognition result information 44 received from the speech recognition means c with a preset threshold value.
【0043】もし、類似度がしきい値よりも大きけれ
ば、認識結果返信手段gに対して、返信指示情報66を
出力し、認識結果返信手段gから携帯電話網を介して、
認識結果をクライアントに対して返信するように指示す
る。If the similarity is larger than the threshold value, reply instruction information 66 is output to the recognition result reply means g, and the recognition result reply means g outputs the reply instruction information via the mobile phone network.
Instructs the client to return the recognition result.
【0044】もし、類似度がしきい値よりも小さい場合
には、上位サーバアドレス保存手段fに上位サーバアド
レス77が保存されているかによって、処理が二通りに
分かれる。If the similarity is smaller than the threshold value, the processing is divided into two types depending on whether the upper server address 77 is stored in the upper server address storage means f.
【0045】上位サーバアドレス保存手段fに上位サー
バアドレス77が保存されていない(上位サーバアドレ
ス77が未知である)場合には、認識結果返信手段gに
対して、返信指示情報66を出力し、認識結果返信手段
gから携帯電話網を介して、認識結果をクライアントに
対して返信するように指示する。If the high-order server address 77 is not stored in the high-order server address storage means f (the high-order server address 77 is unknown), reply instruction information 66 is output to the recognition result reply means g. The recognition result returning means g instructs the client to return the recognition result via the mobile phone network.
【0046】上位サーバアドレス保存手段fに上位サー
バアドレス77が保存されている(上位サーバアドレス
77が既知である)場合には、音声情報転送手段eに対
して、転送指示情報55を出力し、音声情報転送手段e
から携帯電話網等の通信手段を介して、サーバ転送情報
88を上位のサーバに対して転送するように指示する。If the upper server address 77 is stored in the upper server address storage means f (the upper server address 77 is known), the transfer instruction information 55 is output to the voice information transfer means e, Voice information transfer means e
Through the communication means such as a cellular phone network to instruct the server to transfer the server transfer information 88 to a higher-level server.
【0047】類似度比較手段dから転送指示信号55を
受け取った音声情報転送手段eは、上位サーバアドレス
保存手段fに格納された上位サーバアドレス77を持つ
上位サーバに対し、音声情報受信手段aから送られた音
声情報22とクライアントアドレス保存手段bに格納さ
れたクライアントアドレス33から構成されるサーバ転
送情報88を送出し、音声認識処理を要求する。The voice information transfer means e receiving the transfer instruction signal 55 from the similarity comparison means d sends the voice information reception means a to the upper server having the higher server address 77 stored in the higher server address storage means f. It sends out server transfer information 88 composed of the sent voice information 22 and the client address 33 stored in the client address storage means b, and requests voice recognition processing.
【0048】類似度比較手段dから返信指示情報66を
受け取った認識結果返信手段gは、クライアントアドレ
ス保存手段bに保存されたクライアントアドレス33を
持つクライアントに対し、音声認識手段cから受け取っ
た認識結果情報44をサーバ返信情報99として携帯電
話網を介して返信する。Upon receiving the reply instruction information 66 from the similarity comparison means d, the recognition result reply means g sends the recognition result received from the voice recognition means c to the client having the client address 33 stored in the client address storage means b. The information 44 is returned as server return information 99 via the mobile phone network.
【0049】上記の音声情報受信手段a、音声認識手段
b、類似度比較手段d、音声情報転送手段e、認識結果
返信手段gはクライアントのCPUによって実現され
る。クライアントアドレス保存手段bと上位サーバアド
レス保存手段fは、クライアントのメモリによって実現
される。The voice information receiving means a, voice recognition means b, similarity comparison means d, voice information transfer means e, and recognition result reply means g are realized by the CPU of the client. The client address storage means b and the upper server address storage means f are realized by the memory of the client.
【0050】上記での、サーバと上位サーバは、それぞ
れをクライアントとサーバと見なすことができる。サー
バ転送情報88は上位サーバの立場から眺めると、クラ
イアント送信情報11と見なすことができる。The server and the host server described above can be regarded as a client and a server, respectively. The server transfer information 88 can be regarded as the client transmission information 11 from the viewpoint of the host server.
【0051】音声情報22は、クライアントに対して入
力された入力信号00から得られる一般情報の系列と見
なすことができる。The voice information 22 can be regarded as a sequence of general information obtained from the input signal 00 input to the client.
【0052】また音声情報22は、クライアントに内蔵
されるADコンバータにより変換されたデジタルの音声
信号の系列であると特定することができる。この場合に
は、クライアントは、ADコンバータを具えていればよ
い。The audio information 22 can be specified as a sequence of digital audio signals converted by an AD converter built in the client. In this case, the client only needs to have an AD converter.
【0053】さらに音声情報22は、クライアントに内
蔵されるADコンバータにより変換されたデジタルの音
声信号から抽出された、ケプストラムなどの音響パラメ
ータの系列であると特定することができる。この場合に
は、クライアントには、ADコンバータと音響パラメー
タを計算するためのCPUが具えられていればよい。Further, the audio information 22 can be specified as a sequence of acoustic parameters such as cepstrum extracted from a digital audio signal converted by an AD converter built in the client. In this case, the client only needs to have an AD converter and a CPU for calculating acoustic parameters.
【0054】さらに音声情報22は、クライアントに内
蔵されるADコンバータにより変換されたデジタルの音
声信号から抽出された、ケプストラムなどの音響パラメ
ータから変換された音声単位モデルの固有番号の系列で
あると特定することができる。この場合には、クライア
ントには、ADコンバータと音響パラメータ及び音声単
位モデルの固有番号の系列を計算するためのCPUが具
えられていればよい。公知のViterbiアルゴリズ
ムにより、音響パラメータの系列に対して最も類似度の
高い音響パラメータの系列を抽出することは、当業者で
あれば容易である。或いは、フレーム毎の音響パラメー
タに対して、HMMで表現された音声単位モデル毎の確
率を算出し、最も高い確率を与える音声単位モデルを決
定する方法でもよい。Further, the audio information 22 is specified as a sequence of a unique number of an audio unit model converted from audio parameters such as cepstrum extracted from a digital audio signal converted by an AD converter built in the client. can do. In this case, the client only needs to be provided with an AD converter and a CPU for calculating a sequence of acoustic parameters and a unique number of a speech unit model. It is easy for those skilled in the art to extract a sequence of acoustic parameters having the highest similarity to the sequence of acoustic parameters using a known Viterbi algorithm. Alternatively, a method of calculating the probability of each speech unit model represented by the HMM for the acoustic parameter of each frame and determining the speech unit model giving the highest probability may be used.
【0055】加えて、図1における、クライアントとサ
ーバが同一の構成の装置であってもよい。In addition, the client and server in FIG. 1 may be devices having the same configuration.
【0056】次に、本発明の他の実施例を、図3、図4
を用いて説明する。Next, another embodiment of the present invention will be described with reference to FIGS.
This will be described with reference to FIG.
【0057】図3は、本発明の他の実施例の音声認識態
様を説明する図であって、この図3を用いて、本発明を
適用した音声認識サービスの課金システムを説明する。
図3では、クライアント1の他に、第1サーバ12、第
2サーバ13、第3サーバ14(いずれも、その構成は
図2の通り)の3つのサーバが携帯電話網に設置されて
おり、第1サーバ12の上位サーバアドレス保存手段f
には、第2サーバ13のアドレスが保存されており、第
2サーバ13の上位サーバアドレス保存手段fには、第
3サーバ14のアドレスが保存されており、第3サーバ
14の上位サーバアドレス保存手段fには、さらに上位
のサーバのアドレスは保存されていないと仮定する。FIG. 3 is a diagram for explaining a voice recognition mode according to another embodiment of the present invention. A billing system for a voice recognition service to which the present invention is applied will be described with reference to FIG.
In FIG. 3, in addition to the client 1, three servers, a first server 12, a second server 13, and a third server 14 (all of which are as shown in FIG. 2) are installed in the mobile phone network. Upper server address storage means f of the first server 12
Stores the address of the second server 13, and stores the address of the third server 14 in the upper server address storage unit f of the second server 13, and stores the address of the upper server of the third server 14. It is assumed that the means f does not store the address of a higher-order server.
【0058】第1サーバ12、第2サーバ13、第3サ
ーバ14における音声認識サービスは、一回の利用(音
声認識処理)に際し、それぞれ1円、5円、10円(い
ずれも単位時間当たり)のサービス料をクライアントの
ユーザに対し、課金するものとする。サーバにより、サ
ービス料が異なるのは、上位のサーバになるほど、大語
彙をサポートしているため、高価なコンピュータを必要
とし、その設備投資を回収するために、料金がより高く
設定されている。The voice recognition service provided by the first server 12, the second server 13, and the third server 14 can be used once (voice recognition processing) for ¥ 1, ¥ 5, ¥ 10 (each per unit time). Is charged to the client user. The service fee differs depending on the server. The higher the server, the larger the vocabulary is supported, so an expensive computer is required, and the fee is set higher in order to recover the capital investment.
【0059】以下、第1サーバ12、第2サーバ13、
第3サーバ14でのサービス時間がいずれも1単位時間
である場合を例にとって、課金システムを説明する。Hereinafter, the first server 12, the second server 13,
The billing system will be described by taking as an example the case where the service time at each of the third servers 14 is one unit time.
【0060】クライアント1のユーザが入力信号00に
対し、第1サーバ12で音声認識サービスを受けた場合
は、1円のサービス料が課金される。When the user of the client 1 receives the voice recognition service in the first server 12 in response to the input signal 00, a service charge of 1 yen is charged.
【0061】もし、第1サーバ12での音声認識サービ
スの結果、入力信号00に含まれている言葉は全て第1
サーバ12が扱っている語彙に含まれていると判断され
る場合には、第1サーバ12は認識結果を第1サーバ返
信情報99Aとしてクライアント1に返信する。従っ
て、クライアントのユーザは、第1サーバ12の提供者
に対して1円の料金を支払わなければならない。As a result of the speech recognition service in the first server 12, all the words included in the input signal 00 are the first words.
If it is determined that the word is included in the vocabulary handled by the server 12, the first server 12 returns the recognition result to the client 1 as first server return information 99A. Therefore, the user of the client must pay a fee of 1 yen to the provider of the first server 12.
【0062】一方、第1サーバ12での音声認識サービ
スの結果、第1サーバ12が扱っている語彙には含まれ
ていない言葉が入力信号00に含まれていると判断され
る場合には、第1サーバ12は、クライアント送信情報
11に基づいて、第1サーバ転送情報88Aを第2サー
バ13に転送する。もし、第2サーバ13での音声認識
サービスの結果、入力信号00に含まれている言葉は全
て第2サーバ13が扱っている語彙に含まれていると判
断される場合には、第2サーバ13は認識結果を第2サ
ーバ返信情報99Bとしてクライアント1に返信する。
従って、クライアントのユーザは、第2サーバ13の提
供者に対して5円の料金を支払わなければならない。こ
の時点で、クライアント1のユーザは、第1サーバ12
のサービス料1円と、第2サーバ13のサービス料5円
を合わせて6円を負担しなければならない。On the other hand, when it is determined that words not included in the vocabulary handled by the first server 12 are included in the input signal 00 as a result of the voice recognition service in the first server 12, The first server 12 transfers the first server transfer information 88A to the second server 13 based on the client transmission information 11. If, as a result of the speech recognition service in the second server 13, it is determined that all the words included in the input signal 00 are included in the vocabulary handled by the second server 13, 13 returns the recognition result to the client 1 as the second server return information 99B.
Therefore, the user of the client must pay a fee of 5 yen to the provider of the second server 13. At this point, the user of the client 1 has
A total of 6 yen must be paid for the service charge of 1 yen for the first server and the service charge for the second server 13 of 5 yen.
【0063】一方、第2サーバ13での音声認識サービ
スの結果、第2サーバ13が扱っている語彙には含まれ
ていない言葉が入力信号00に含まれていると判断され
る場合には、第2サーバ13は、第1サーバ転送情報8
8Aに基づいて、第2サーバ転送情報88Bを第3サー
バ14に転送する。On the other hand, when it is determined that words not included in the vocabulary handled by the second server 13 are included in the input signal 00 as a result of the voice recognition service in the second server 13, The second server 13 transmits the first server transfer information 8
The second server transfer information 88B is transferred to the third server 14 based on 8A.
【0064】第3サーバ14は、音声認識サービスの結
果を第3サーバ返信情報99Cとしてクライアントに返
信する。従って、クライアント1のユーザは、第3サー
バ14の提供者に対して10円の料金を支払わなければ
ならない。この時点で、クライアント1のユーザは、第
1サーバ12のサービス料1円と、第2サーバ13のサ
ービス料5円と、第3サーバ14のサービス料10円を
合わせて16円の負担となる。The third server 14 returns the result of the voice recognition service to the client as third server return information 99C. Therefore, the user of the client 1 must pay a fee of 10 yen to the provider of the third server 14. At this point, the user of the client 1 is charged 16 yen including the service charge of the first server 12 of 1 yen, the service charge of the second server 13 of 5 yen, and the service charge of the third server 14 of 10 yen. .
【0065】もちろん、クライアント1のユーザは、ク
ライアント送信情報11を直接第3サーバ14に送るこ
とも可能である。この場合は、クライアント1のユーザ
の負担は10円で済む。この場合、クライアント1のユ
ーザは、第1サーバ12、第2サーバ13、第3サーバ
14の全てのサービスを順番に受ける場合に負担する1
6円のサービス料に比べて、6円を節約できるが、第1
サーバ12のサービスで済む場合に比べて、9円の損失
になる。最初にどのサーバのサービスを受けるかは、入
力信号00に含まれる言葉の内容とサーバのサービス料
金を勘案して、クライアントのユーザが自由に選択す
る。Of course, the user of the client 1 can directly send the client transmission information 11 to the third server 14. In this case, the burden on the user of the client 1 is only 10 yen. In this case, the user of the client 1 bears a burden when receiving all services of the first server 12, the second server 13, and the third server 14 in order.
You can save 6 yen compared to 6 yen service fee.
Compared to the case where the service of the server 12 is sufficient, the loss is 9 yen. First, the client user can freely select which server receives the service in consideration of the content of the words included in the input signal 00 and the service fee of the server.
【0066】次に、第1サーバ12での音声認識サービ
スの結果を第2サーバ13での音声認識サービスに反映
させて、第2サーバ13での音声認識処理の負荷を軽減
させる方法について述べる。Next, a method of reflecting the result of the voice recognition service in the first server 12 on the voice recognition service in the second server 13 to reduce the load of the voice recognition processing in the second server 13 will be described.
【0067】例えば、クライアント1のユーザが、東京
都新宿区界隈の地中海料理のレストランの情報を携帯電
話を用いて調べたい場合に、「新宿の地中海料理の店」
と携帯電話に向かって喋ったとする。この時、「新宿の
地中海料理の店」という音声が、入力信号00として、
クライアント1である携帯電話に入力される。クライア
ント1は、その入力信号00に基づいて、クライアント
送信信号11を第1サーバ12に送信する。For example, when the user of the client 1 wants to check the information of the restaurant of the Mediterranean cuisine in the Shinjuku-ku area of Tokyo using a mobile phone, a "Mediterranean restaurant in Shinjuku"
To the mobile phone. At this time, the voice of “Mediterranean restaurant in Shinjuku” is input as signal 00,
It is input to the mobile phone as the client 1. The client 1 transmits a client transmission signal 11 to the first server 12 based on the input signal 00.
【0068】たまたま第1サーバ12の音声認識サービ
スが、日本の地名に関しては豊富な語彙をサポートして
いるが、外国の地名は語彙としてサポートしていないと
する。この場合、第1サーバ12の音声認識手段cから
出力される認識結果情報44は、図4のような形式で出
力されるものとする。It is assumed that the speech recognition service of the first server 12 happens to support abundant vocabulary for Japanese place names, but does not support foreign place names as vocabulary. In this case, the recognition result information 44 output from the voice recognition unit c of the first server 12 is output in a format as shown in FIG.
【0069】ここで、各行はクライアント送信情報11
から抽出された言葉に関する情報である。左から一列目
は、言葉のラベルを表しており、左から2列目は、言葉
の確からしさを表すスコアを表しており、左から3列目
は、言葉の発声の終わりの時刻を表している。Sile
nceは、無音を表すラベルである。???は、第1サ
ーバ12でサポートしている語彙に含まれていない言葉
が450msから700msの間に発声されていると第
1サーバ12が判断したことを示しており、言葉の確か
らしさは0%と表示されている。Here, each line is the client transmission information 11
This is information about words extracted from. The first column from the left represents the label of the word, the second column from the left represents the score representing the certainty of the word, and the third column from the left represents the time at the end of the utterance of the word. I have. Sile
nce is a label representing silence. ? ? ? Indicates that the first server 12 has determined that words not included in the vocabulary supported by the first server 12 are uttered between 450 ms and 700 ms, and the likelihood of the words is 0% Is displayed.
【0070】この図4の認識結果情報44が図2の転送
指示信号55に添付されて、第1サーバ12の音声情報
転送手段eに送られ、さらに、第1サーバ12の音声情
報転送手段eにより、第1サーバ転送情報88Aの一部
として、第2サーバ13に転送される。The recognition result information 44 of FIG. 4 is attached to the transfer instruction signal 55 of FIG. 2 and sent to the voice information transfer means e of the first server 12, and further, the voice information transfer means e of the first server 12 Is transferred to the second server 13 as a part of the first server transfer information 88A.
【0071】第2サーバ13は、音声情報受信手段a
で、第1サーバ転送情報88Aを解析し、音声情報22
に添付する形で図4の認識結果情報44を音声認識手段
cに送る。第2サーバ13の音声認識手段cは、図4の
認識結果情報を参照し、ある値以上の確からしさを持つ
言葉を正解と見なし、ある値未満の確からしさを持つ区
間の音声情報22に対して、音声認識処理を行う。The second server 13 comprises a voice information receiving means a
Then, the first server transfer information 88A is analyzed, and the voice information 22 is analyzed.
Then, the recognition result information 44 of FIG. The voice recognition means c of the second server 13 refers to the recognition result information of FIG. 4 and regards a word having certainty greater than a certain value as a correct answer. Then, a voice recognition process is performed.
【0072】第2サーバ13がサポートしている語彙の
中に「地中海」という言葉が含まれていれば、450m
sから700msの区間が、「地中海」という言葉に対
応するという確からしさが例えば95%という値を示す
ため、「地中海」という言葉が発声されていると認識す
ることができる。If the word “Mediterranean” is included in the vocabulary supported by the second server 13, 450 m
Since the probability that the section from s to 700 ms corresponds to the word "Mediterranean" indicates a value of, for example, 95%, it can be recognized that the word "Mediterranean" is uttered.
【0073】この結果、第2サーバ13は、入力信号0
0に含まれる全ての言葉を高い確からしさで認識するこ
とができたため、認識結果送信手段gを介して、第2サ
ーバ返信情報99Bをクライアント1に返信することが
できる。As a result, the second server 13 receives the input signal 0
Since all words included in 0 can be recognized with high certainty, the second server reply information 99B can be returned to the client 1 via the recognition result transmitting means g.
【0074】もし、第2サーバ13がサポートする語彙
に「地中海」という言葉が含まれていない場合は、確か
らしさが低い値になるので、第2サーバ13は第3サー
バ14に認識サービスを委ねることになる。この場合に
ついても、上記の方法と同様の方法で実現することが可
能である。If the word “Mediterranean” is not included in the vocabulary supported by the second server 13, the probability is low, and the second server 13 entrusts the third server 14 with the recognition service. Will be. Also in this case, it is possible to realize the same method as the above method.
【0075】上述の説明では、クライアントを携帯電
話、サーバを携帯電話網の中のサーバに設置された音声
認識装置として説明したが、クライアントをパーソナル
コンピュータ等のコンピュータ、サーバをインターネッ
ト網の中のサーバに設置された音声認識装置としてもよ
い。また、クライアントが携帯電話で、サーバが携帯電
話網と接続されたインターネット網の中のサーバに設置
された音声認識装置である組み合わせでもよいし、クラ
イアントがパーソナルコンピュータ等のコンピュータ
で、サーバがインターネット網と接続された携帯電話網
の中のサーバに設置された音声認識装置である組み合わ
せでも良いことは言うまでもない。In the above description, the client has been described as a mobile phone, and the server has been described as a voice recognition device installed in a server in the mobile phone network. However, the client is a computer such as a personal computer, and the server is a server in the Internet network. May be a voice recognition device installed in the device. Further, the combination may be such that the client is a mobile phone, and the server is a voice recognition device installed on a server in an internet network connected to the mobile phone network, or the client is a computer such as a personal computer, and the server is an internet network. Needless to say, the combination may be a speech recognition device installed in a server in a mobile telephone network connected to the mobile phone.
【0076】[0076]
【発明の効果】以上説明したように、本発明によれば、
処理能力の低いクライアントで認識できなかった音声情
報を処理能力の高いサーバで認識し、その認識結果を利
用することができる。As described above, according to the present invention,
Voice information that could not be recognized by a client with low processing capability can be recognized by a server with high processing capability, and the recognition result can be used.
【図1】クライアント/サーバによる音声認識態様を説
明する図である。FIG. 1 is a diagram illustrating a speech recognition mode by a client / server.
【図2】サーバの構成を示す図である。FIG. 2 is a diagram illustrating a configuration of a server.
【図3】3つのサーバによる音声認識態様を説明する図
である。FIG. 3 is a diagram illustrating a speech recognition mode by three servers.
【図4】認識結果情報の形式を示す図である。FIG. 4 is a diagram showing a format of recognition result information.
00 入力信号 1 クライアント 2 サーバ 11 クライアント送信情報 12 第1サーバ 13 第2サーバ 14 第3サーバ 22 音声情報 33 クライアントアドレス 44 認識結果情報 55 転送指示信号 66 返信指示情報 77 上位サーバアドレス 88 サーバ転送情報 88A 第1サーバ転送情報 88B 第2サーバ転送情報 99 サーバ返信情報 99A 第1サーバ返信情報 99B 第2サーバ返信情報 99C 第3サーバ返信情報 a 音声情報受信手段 b クライアントアドレス保存手段 c 音声認識手段 d 類似度比較手段 e 音声情報転送手段 f 上位サーバアドレス保存手段 g 認識結果返信手段 00 Input signal 1 Client 2 Server 11 Client transmission information 12 First server 13 Second server 14 Third server 22 Voice information 33 Client address 44 Recognition result information 55 Transfer instruction signal 66 Reply instruction information 77 Upper server address 88 Server transfer information 88A First server transfer information 88B Second server transfer information 99 Server reply information 99A First server reply information 99B Second server reply information 99C Third server reply information a Voice information receiving means b Client address storage means c Voice recognition means d Similarity Comparison means e Voice information transfer means f Upper server address storage means g Recognition result return means
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 561A 561H 571C 571J ──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat ゛ (Reference) G10L 3/00 561A 561H 571C 571C 571J
Claims (12)
報を有する複数のサーバの少なくとも1つを使用して、
通信手段を介して受信したクライアントからの音声情報
を音声認識する音声認識方法であって、 前記クライアントからの音声情報に対する音声認識に関
して所定の認識結果が得られるまで、前記音声情報に関
して、第1のサーバから、より多くの音声認識のための
情報を有する少なくとも1つの上位のサーバにおいて、
前記クライアントからの音声情報に対する音声認識を順
次実行し、 所定の認識結果が得られたサーバから当該認識結果を通
信手段を介して前記クライアントに送信することを特徴
とする音声認識方法。1. Using at least one of a plurality of servers having information for progressively more speech recognition,
A voice recognition method for recognizing voice information from a client received via a communication unit, wherein a first recognition is performed on the voice information until a predetermined recognition result is obtained for voice recognition of the voice information from the client. At least one upper server having more information for speech recognition from the server,
A voice recognition method comprising sequentially performing voice recognition on voice information from the client, and transmitting the recognition result to the client via a communication unit from a server that has obtained a predetermined recognition result.
ら、前記音声情報に関して当該第1のサーバの次に多く
の音声認識のための情報を有する上位のサーバに対して
転送する情報は、前記クライアントからの音声情報およ
び当該第1のサーバにおける認識結果の少なくとも一方
を含むことを特徴とする音声認識方法。2. The system according to claim 1, wherein, from the first server for which the predetermined recognition result has not been obtained, the first server has more information for voice recognition next to the first server with respect to the voice information. A speech recognition method, wherein the information to be transferred to the server includes at least one of speech information from the client and a recognition result in the first server.
語の類似度を所定のしきい値と比較した結果に基づいて
得られることを特徴とする音声認識方法。3. The method according to claim 1, wherein the predetermined recognition result is obtained based on a result obtained by comparing a similarity of a word most similar to the voice information with a predetermined threshold value. Voice recognition method.
音声信号から変換されたデジタル音声信号の系列である
ことを特徴とする音声認識方法。4. The voice recognition method according to claim 1, wherein the voice information transmitted from the client is a series of digital voice signals converted from an analog voice signal.
タル音声信号から抽出された音響パラメータの系列であ
ることを特徴とする音声認識方法。5. The speech recognition method according to claim 1, wherein the speech information transmitted from the client is a sequence of acoustic parameters extracted from the digital speech signal.
パラメータから変換された音声単位モデルの固有番号の
系列であることを特徴とする音声認識方法。6. The speech recognition method according to claim 1, wherein the speech information transmitted from the client is a series of unique numbers of a speech unit model converted from the acoustic parameters. .
ることを特徴とする音声認識方法。7. The speech recognition method according to claim 1, wherein the client and the server have the same configuration.
が適用されるサーバにおいて、 音声認識処理に要した時間を計測し、 前記計測時間と、前記音声情報に関する音声認識のため
の情報の量とに基づいて使用料金を計算することを特徴
とする音声認識サーバにおける使用料金計算法。8. A server to which the voice recognition method according to claim 1 is applied, wherein a time required for voice recognition processing is measured, and the measured time and information for voice recognition related to the voice information are measured. A usage fee calculation method in a speech recognition server, wherein the usage fee is calculated based on the amount of the usage fee.
トからの音声情報を受信して音声認識するサーバであっ
て、 受信した前記クライアントからの音声情報を音声認識処
理する音声認識処理手段と、 前記音声認識処理手段によって所定の認識結果が得られ
たか否かを判断する判断手段と、 前記判断によって所定の認識結果が得られた場合は、前
記クライアントに通信手段を介して前記所定の認識結果
を送信し、前記判断によって所定の認識結果が得られな
かった場合は、前記音声情報に関して当該サーバよりも
多い音声認識のための情報を有する上位のサーバに通信
手段を介して前記クライアントからの音声情報を転送す
る出力手段とを具えたことを特徴とする音声認識サー
バ。9. A server which receives voice information from a client transmitted via a communication means and recognizes the voice, wherein the voice recognition processing means performs voice recognition processing on the received voice information from the client; Determining means for determining whether or not a predetermined recognition result has been obtained by the voice recognition processing means; and if the predetermined recognition result has been obtained by the determination, the predetermined recognition result is transmitted to the client via communication means. Transmitting, if the predetermined recognition result is not obtained by the determination, the voice information from the client via the communication means to a higher-level server having more information for voice recognition than the server with respect to the voice information And an output means for transferring the speech.
似度を所定のしきい値と比較した結果に基づいて前記判
断を行うことを特徴とする音声認識サーバ。10. The speech recognition apparatus according to claim 9, wherein said judgment means makes said judgment based on a result of comparing a similarity of a word most similar to said speech information with a predetermined threshold value. server.
とクライアントアドレスから構成されるクライアント送
信情報を受信し、 前記音声認識処理手段は、前記受信手段が受信した音声
情報を入力して音声認識を行い、音声情報に最も類似す
る単語の固有番号とその類似度からなる認識結果情報を
出力し、 前記出力手段は、前記受信手段が受信したクライアント
送信情報から取り出されたクライアントアドレスを保存
するクライアントアドレス保存手段と、前記クライアン
トアドレス保存手段に保存されたクライアントアドレス
を参照して認識結果を当該クライアントに返信するため
の認識結果返信手段と、前記上位のサーバのアドレスを
保存する上位サーバアドレス保存手段と、前記受信手段
が受信した音声情報および前記クライアントアドレス保
存手段に保存されたクライアントアドレスから構成され
るサーバ転送情報を前記上位サーバアドレス保存手段に
保存された上位のサーバのアドレスを参照して当該上位
のサーバに転送するための音声情報転送手段とを有し、 前記判断手段は、前記音声認識処理手段から出力された
類似度を予め与えられたしきい値と比較し、類似度がし
きい値以上の場合、および類似度がしきい値未満の場合
であって前記上位サーバアドレス保存手段に上位のサー
バのアドレスが格納されていない場合は、前記音声認識
処理手段からの認識結果をクライアントに返信するよう
に認識結果返信手段を制御し、類似度がしきい値未満の
場合であって前記上位サーバアドレス保存手段に上位の
サーバのアドレスが保存されている場合は、前記サーバ
転送情報を当該上位のサーバに転送するように前記音声
情報転送手段を制御することを特徴とする音声認識サー
バ。11. The method according to claim 9, wherein the receiving unit receives client transmission information including voice information transmitted from the client and a client address, and the voice recognition processing unit receives the voice received by the receiving unit. Inputting information and performing voice recognition, outputting recognition result information including a unique number of a word most similar to the voice information and its similarity, the output unit is extracted from the client transmission information received by the reception unit. A client address storage unit for storing the client address stored in the client address storage unit, a recognition result return unit for returning a recognition result to the client by referring to the client address stored in the client address storage unit, and an address of the upper server. An upper server address storing means for storing, and the receiving means To transfer server transfer information composed of the voice information and the client address stored in the client address storage unit to the upper server by referring to the address of the upper server stored in the upper server address storage unit. The judgment means compares the similarity output from the speech recognition processing means with a predetermined threshold value, and when the similarity is equal to or greater than the threshold value, If the degree is less than the threshold value and the address of the upper server is not stored in the upper server address storage unit, the recognition result is returned so that the recognition result from the voice recognition processing unit is returned to the client. Means for controlling the means, and when the similarity is less than the threshold value, the address of the upper server is stored in said upper server address storing means. If so, the voice information transfer means controls the voice information transfer means to transfer the server transfer information to the host server.
前記クライアントからの音声情報を通信手段を介して受
信する請求項9〜11のいずれかの音声認識サーバとを
具えたことを特徴とする音声認識システム。12. A client for transmitting voice information,
A speech recognition system comprising: the speech recognition server according to claim 9, wherein the speech information from the client is received via communication means.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000237803A JP3477432B2 (en) | 2000-08-04 | 2000-08-04 | Speech recognition method and server and speech recognition system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000237803A JP3477432B2 (en) | 2000-08-04 | 2000-08-04 | Speech recognition method and server and speech recognition system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2002049390A true JP2002049390A (en) | 2002-02-15 |
| JP3477432B2 JP3477432B2 (en) | 2003-12-10 |
Family
ID=18729601
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000237803A Expired - Fee Related JP3477432B2 (en) | 2000-08-04 | 2000-08-04 | Speech recognition method and server and speech recognition system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3477432B2 (en) |
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003255982A (en) * | 2002-02-28 | 2003-09-10 | Fujitsu Ltd | Voice recognition system and voice file recording system |
| JP2004325688A (en) * | 2003-04-23 | 2004-11-18 | Toyota Motor Corp | Speech recognition system |
| JP2005266192A (en) * | 2004-03-18 | 2005-09-29 | Matsushita Electric Ind Co Ltd | Apparatus and method for speech recognition |
| JP2006106761A (en) * | 2004-10-08 | 2006-04-20 | Samsung Electronics Co Ltd | Multistage speech recognition apparatus and multistage speech recognition method |
| JP2009015813A (en) * | 2007-06-29 | 2009-01-22 | Nhn Corp | Browser control method and system using image |
| JP2009288630A (en) * | 2008-05-30 | 2009-12-10 | Denso Corp | Voice recognition system for vehicle |
| JP2018173515A (en) * | 2017-03-31 | 2018-11-08 | 株式会社アドバンスト・メディア | Information processing system, information processing device, information processing method and program |
| US10276191B2 (en) | 2014-07-30 | 2019-04-30 | Kabushiki Kaisha Toshiba | Speech section detection device, voice processing system, speech section detection method, and computer program product |
| CN111128187A (en) * | 2019-12-30 | 2020-05-08 | 天津大学 | Method for recording diet based on smart band |
| CN113488054A (en) * | 2020-04-28 | 2021-10-08 | 海信集团有限公司 | Voice forwarding method, server and intelligent voice equipment |
-
2000
- 2000-08-04 JP JP2000237803A patent/JP3477432B2/en not_active Expired - Fee Related
Cited By (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7979278B2 (en) | 2002-02-28 | 2011-07-12 | Fujitsu Limited | Speech recognition system and speech file recording system |
| JP2003255982A (en) * | 2002-02-28 | 2003-09-10 | Fujitsu Ltd | Voice recognition system and voice file recording system |
| JP2004325688A (en) * | 2003-04-23 | 2004-11-18 | Toyota Motor Corp | Speech recognition system |
| JP2005266192A (en) * | 2004-03-18 | 2005-09-29 | Matsushita Electric Ind Co Ltd | Apparatus and method for speech recognition |
| JP2006106761A (en) * | 2004-10-08 | 2006-04-20 | Samsung Electronics Co Ltd | Multistage speech recognition apparatus and multistage speech recognition method |
| US8370159B2 (en) | 2004-10-08 | 2013-02-05 | Samsung Electronics Co., Ltd. | Multi-layered speech recognition apparatus and method |
| US8380517B2 (en) | 2004-10-08 | 2013-02-19 | Samsung Electronics Co., Ltd. | Multi-layered speech recognition apparatus and method |
| US8892425B2 (en) | 2004-10-08 | 2014-11-18 | Samsung Electronics Co., Ltd. | Multi-layered speech recognition apparatus and method |
| JP2009015813A (en) * | 2007-06-29 | 2009-01-22 | Nhn Corp | Browser control method and system using image |
| JP2009288630A (en) * | 2008-05-30 | 2009-12-10 | Denso Corp | Voice recognition system for vehicle |
| US10276191B2 (en) | 2014-07-30 | 2019-04-30 | Kabushiki Kaisha Toshiba | Speech section detection device, voice processing system, speech section detection method, and computer program product |
| JP2018173515A (en) * | 2017-03-31 | 2018-11-08 | 株式会社アドバンスト・メディア | Information processing system, information processing device, information processing method and program |
| CN111128187A (en) * | 2019-12-30 | 2020-05-08 | 天津大学 | Method for recording diet based on smart band |
| CN113488054A (en) * | 2020-04-28 | 2021-10-08 | 海信集团有限公司 | Voice forwarding method, server and intelligent voice equipment |
| CN113488054B (en) * | 2020-04-28 | 2024-03-08 | 海信集团有限公司 | Voice forwarding method, server and intelligent voice equipment |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3477432B2 (en) | 2003-12-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7904294B1 (en) | System and method for processing speech recognition | |
| JP5233989B2 (en) | Speech recognition system, speech recognition method, and speech recognition processing program | |
| JP3728177B2 (en) | Audio processing system, apparatus, method, and storage medium | |
| US7533023B2 (en) | Intermediary speech processor in network environments transforming customized speech parameters | |
| EP2036079B1 (en) | A method, a system and a device for converting speech | |
| US20180218735A1 (en) | Speech recognition involving a mobile device | |
| JP2004287447A (en) | Distributed speech recognition for mobile communication device | |
| EP2538404A1 (en) | Voice data transferring device, terminal device, voice data transferring method, and voice recognition system | |
| US20080201147A1 (en) | Distributed speech recognition system and method and terminal and server for distributed speech recognition | |
| EP1251492B1 (en) | Arrangement of speaker-independent speech recognition based on a client-server system | |
| JP2003044091A (en) | Voice recognition system, portable information terminal, voice information processing device, voice information processing method, and voice information processing program | |
| WO2001099096A1 (en) | Speech input communication system, user terminal and center system | |
| CN108417222B (en) | Weighted finite state converter decoding system and speech recognition system | |
| JP3477432B2 (en) | Speech recognition method and server and speech recognition system | |
| CN113724698A (en) | Training method, device and equipment of speech recognition model and storage medium | |
| KR102141150B1 (en) | Apparatus for speaker recognition using speaker dependent language model and method of speaker recognition | |
| JP5510069B2 (en) | Translation device | |
| JP2003122395A (en) | Speech recognition system, terminal and program, and speech recognition method | |
| JP2000276188A (en) | Voice recognition device, voice recognition method, recording medium recording voice recognition control program, communication terminal device, communication method, recording medium recording voice recognition communication control program, server device, voice recognition data transmission / reception method, and Recording medium on which a transmission / reception control program for voice recognition data is recorded | |
| JP2005062398A (en) | Speech recognition apparatus for speech recognition, speech data collection method for speech recognition, and computer program | |
| KR100347790B1 (en) | Speech Recognition Method and System Which Have Command Updating Function | |
| EP1635328B1 (en) | Speech recognition method constrained with a grammar received from a remote system. | |
| Ivanecký et al. | Multi-Modal voice application design in a Multi-Client environment | |
| Kumar | MEDISCRIPT-MOBILE CLOUD COLLABRATIVE SPEECH RECOGNITION FRAMEWORK | |
| HK1130935B (en) | A method, a system and a device for converting speech |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20030826 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090926 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100926 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100926 Year of fee payment: 7 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100926 Year of fee payment: 7 |
|
| R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100926 Year of fee payment: 7 |
|
| R370 | Written measure of declining of transfer procedure |
Free format text: JAPANESE INTERMEDIATE CODE: R370 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100926 Year of fee payment: 7 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100926 Year of fee payment: 7 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110926 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110926 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120926 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130926 Year of fee payment: 10 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| LAPS | Cancellation because of no payment of annual fees |