JP2019008274A - Voice information processing system, control method of voice information processing system, program of voice information processing system and storage medium - Google Patents
Voice information processing system, control method of voice information processing system, program of voice information processing system and storage medium Download PDFInfo
- Publication number
- JP2019008274A JP2019008274A JP2018075244A JP2018075244A JP2019008274A JP 2019008274 A JP2019008274 A JP 2019008274A JP 2018075244 A JP2018075244 A JP 2018075244A JP 2018075244 A JP2018075244 A JP 2018075244A JP 2019008274 A JP2019008274 A JP 2019008274A
- Authority
- JP
- Japan
- Prior art keywords
- processing
- information
- voice
- unit
- processing system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】 高精度で、しかも安価に音声内容の分析、解析、認識、評価、修正することにより最適化するとともに、会話の行われている状況をより的確に把握する技術的思想の提示を目指すこと。【解決手段】 音声に関する音声情報を入力する入力手段と、入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段と、前段処理手段により処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、タスク処理の評価が十分でない場合に第1の情報を修正し、評価が十分になるまで一連の処理を繰り返すことで最適化する最適化手段とを備える。【選択図】図5PROBLEM TO BE SOLVED: To present a technical idea for more accurately grasping a situation in which a conversation is taking place while optimizing by analyzing, analyzing, recognizing, evaluating, and correcting voice contents with high accuracy and at low cost. thing. SOLUTION: An input means for inputting voice information related to voice, a pre-stage processing means for performing pre-stage processing on the input voice information so as to facilitate identification processing, and voice information processed by the pre-stage processing means. Optimized by performing predetermined processing, performing task processing based on the first information, correcting the first information when the evaluation of the task processing is not sufficient, and repeating a series of processing until the evaluation is sufficient. It is provided with an optimization means to be used. [Selection diagram] Fig. 5
Description
本発明は、会話における音声情報処理システムに係る、音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体に関する。 The present invention relates to a voice information processing system, a method for controlling the voice information processing system, a program for the voice information processing system, and a recording medium according to a voice information processing system in conversation.
近年、音声情報処理技術の発展は目覚ましいものがある。例えば、利用者がシステムの状態を容易に把握できるようにし、利用者とシステムとが常に円滑な対話を実現できる音声対話システム(例えば、特許文献1参照)、苦情等を音声により受け付けて、後の処理に利用可能な形態で処理者に伝達することが可能な対話記録システム(例えば、特許文献2参照。)、及びユーザと円滑に対話できる、対話機能を有する電子機器(例えば、特許文献3参照。)が開示されている。 In recent years, the development of speech information processing technology has been remarkable. For example, a voice dialogue system (for example, refer to Patent Document 1) that allows a user to easily grasp the state of the system and realizes a smooth dialogue between the user and the system, accepts complaints by voice, A dialog recording system (see, for example, Patent Document 2) that can be transmitted to a processor in a form that can be used for the above processing, and an electronic device (for example, Patent Document 3) that can smoothly interact with a user. Reference).
特許文献1に記載の発明は、マイク、音声入力手段、音声分析手段、音声認識手段、構文解析手段、意図抽出手段、対話管理手段、問題解決手段、応答文生成手段、音声合成手段、音声出力手段、スピーカ、複数の中途応答処理手段からなる音声対話システムにおいて、複数の中途応答処理手段は、入力系の手段である音声入力手段、音声分析手段、音声認識手段、構文解析手段、意図抽出手段のうち任意の1つあるいは複数の手段の処理結果を入力として、処理結果を出力系の手段である音声出力手段、音声合成手段、応答文生成手段のうち1つあるいは複数の手段へ出力するものである。
The invention described in
特許文献2に記載の発明は、対話の音声データを記録する記録装置と、記録される音声データについて、特定の箇所を識別するための識別子を生成して、記録装置に記録させる処理を行う情報処理装置とを備え、情報処理装置は、記記録装置に記録される音声データについて、識別子の生成の要求を受け付けて識別子を生成し、識別子を、記録すべき音声データと対応付けて記録装置に記録し、記録装置には、音声データと、識別子データとが記録され、また、音声データを音声認識部により、音声認識して得られたテキストデータが記録されるものである。 The invention described in Patent Document 2 is a recording device that records voice data of a dialog, and information that performs processing for generating an identifier for identifying a specific portion of the recorded voice data and causing the recording device to record the identifier. A processing device, and the information processing device receives an identifier generation request for the audio data recorded in the recording device, generates an identifier, and associates the identifier with the audio data to be recorded in the recording device. In the recording apparatus, voice data and identifier data are recorded, and text data obtained by voice recognition of the voice data by the voice recognition unit is recorded.
特許文献3に記載の発明は、冷蔵庫は、マイクおよびスピーカを備え、音声を取得し、取得した音声に応じて発話する対話機能を有するものであり、冷蔵庫は、冷蔵庫近傍の所定の範囲内におけるユーザの位置を特定する位置特定部と、位置特定部にて特定されたユーザの位置に応じた値となるように、マイクの感度を調整するマイク制御部、スピーカの音量を調整するスピーカ制御部を備えるものである。
In the invention described in
しかしながら、特許文献1に記載の発明は、オウム返し応答もしくは相槌応答によって、利用者は、自分の発話が音声として入力されていることを認識でき、安心して次の発話を行なえるが、定型文を利用しているため、ノイズやエコーの混在したイレギュラーな発話に対しては何ら評価をしたり、定型文に修正を施したりするようにはなっていない。
However, in the invention described in
また、特許文献2に記載の発明は、予め定めた基準値以上かを判定し、基準値未満のときは、発言が途切れていると判定し、その後、基準値を超える状態となったとき、発言が始まったと判定して、頭出し信号を出力したりするものの、対話の相手の感情を把握したり、聞き間違いに対して改善するような処理はなされていない。 In addition, the invention described in Patent Document 2 determines whether it is equal to or greater than a predetermined reference value. When the reference value is less than the reference value, it is determined that the speech is interrupted, and then when the reference value is exceeded, Although it is determined that the utterance has begun and a cueing signal is output, there is no processing for grasping the emotion of the other party in the dialogue or improving the mistake in hearing.
さらに、特許文献3に記載の発明は、取得した音声に応じて発話する受動的な応答をするようになっているものの相手に対して能動時に話しかけるようにはなっていない。
Furthermore, although the invention described in
本願は、このような問題点を解決するために企図されたものであり、高精度で、しかも安価に音声内容の分析、解析、認識、評価、修正することにより最適化するとともに、会話の行われている状況をより的確に把握する技術的思想の提示を目指すものである。 This application is intended to solve such problems, and is optimized by analyzing, analyzing, recognizing, evaluating, and correcting speech content with high accuracy and at a low cost. The aim is to present a technical idea that more accurately grasps the situation.
上記課題を解決するため、請求項1に記載の発明は、音声に関する音声情報を入力する入力手段と、前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段と、前記前段処理手段により処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、前記タスク処理の評価が十分でない場合に前記第1の情報を修正し、前記評価が十分になるまで一連の処理を繰り返すことで最適化する最適化手段と、を備えたことを特徴とする。
In order to solve the above-mentioned problem, the invention according to
ここで、音声とは、物音(例えば、机やドアをたたく音等)と人の声と雑音(例えば、サイレンや動物の鳴き声、クシャミ等)とを含む音波である。 Here, the sound is a sound wave including a physical sound (for example, a sound of hitting a desk or a door), a human voice and noise (for example, a siren, a cry of an animal, a crushing sound, etc.).
また、第1の情報とは、アプリケーションソフトウェア(以下、「アプリ」と記す。)に関連するシナリオデザイン、各種手段のうちどの手段を選択し、どの順番でどのように実行し、評価し、評価が不十分な場合に繰り返すフロー等を含む情報である。 Further, the first information is a scenario design related to application software (hereinafter referred to as “application”), which means is selected from various means, and in what order is executed, evaluated, and evaluated. This is information including a flow that repeats when this is insufficient.
請求項2に記載の発明は、請求項1に記載の構成に加え、前記最適化手段は、前記タスク処理の結果を評価する第1の評価手段と、前記評価が十分でない場合に前記第1の情報を修正する修正手段と、前記前段処理手段から前記修正手段までの一連の処理を繰り返す繰返手段と、を備えたことを特徴とする。 According to a second aspect of the present invention, in addition to the configuration of the first aspect, the optimization means includes a first evaluation means for evaluating a result of the task processing, and the first evaluation means when the evaluation is not sufficient. And a repeating unit that repeats a series of processing from the preceding processing unit to the correcting unit.
請求項3に記載の発明は、請求項1に記載の構成に加え、室内で前記音声の内容を分析して応答する際に、クライアント側の音声入出力装置の処理能力が対応可能な場合に前記音声入出力装置で情報処理を行い、前記音声入出力装置の処理能力が対応可能でない場合にクラウド側が情報処理を行う判断手段を備えたことを特徴とする。
The invention according to
請求項4に記載の発明は、請求項1に記載の構成に加え、室内の環境の設定、意図的解釈、及び対話を管理する外部システムを備えたことを特徴とする。
The invention described in claim 4 is characterized in that, in addition to the configuration described in
ここで、意図的解釈とは話者の意図を推定し、推定結果を反映した解釈を言う。 Here, intentional interpretation refers to interpretation that estimates the speaker's intention and reflects the estimation result.
請求項5に記載の発明は、請求項1に記載の構成に加え、前記外部システムは、前記音声入出力装置の筐体外を撮像する撮像手段、前記筐体を振動させる振動手段、前記筐体を回転させる回転手段、及び前記筐体外の壁に画像を投影する投影手段を少なくとも一つ備えたことを特徴とする。 According to a fifth aspect of the present invention, in addition to the configuration according to the first aspect, the external system includes an imaging unit that images the outside of the voice input / output device casing, a vibrating unit that vibrates the casing, and the casing. And at least one projection means for projecting an image onto a wall outside the housing.
請求項6に記載の発明は、請求項1に記載の構成に加え、意図的解釈、前記対話の管理に外部コンテンツの利用が可能なことを特徴とする。
The invention described in claim 6 is characterized in that, in addition to the configuration described in
請求項7に記載の発明は、請求項1に記載の構成に加え、前記音声の内容の分析処理、解析処理、及び認識処理を含む情報加工処理を行い、話者の、年齢、性別を含む属性について推論する推論手段と、第2の情報をデザインする際に利用したログを収集する収集手段と、前記ログを解析する解析手段と、前記応答及び前記第2の情報を評価する第2の評価手段とをそなえ、前記評価に基づいて継続的に改善することで最適化することを特徴とする。
The invention according to claim 7 performs the information processing process including the analysis process, the analysis process, and the recognition process of the content of the voice in addition to the configuration of the
ここで、第2の情報とは、各種手段のうちどの手段を用い、どの順番で処理し、評価し、十分でない場合に繰り返すフローについての情報をいう。 Here, the second information refers to information about a flow that is used among various means, is processed in which order, is evaluated, and is repeated when it is not sufficient.
認識処理は、収集した音声情報から、話し手の他に、笑い声、拍手、呼び声等の認識、さらに環境音を分析、解析、認識等の処理を行った結果から、話者識別、性別推定、年齢推定等を行うとともに、イントネーション判定から、出身地等に関する各種情報を提供するものである。 The recognition process consists of recognition of laughter, applause, call, etc. in addition to the speaker from the collected voice information, and analysis, analysis, recognition, etc. of environmental sound, and speaker identification, gender estimation, age In addition to performing estimation and the like, various information regarding the birthplace and the like is provided from intonation determination.
請求項8に記載の発明は、請求項7に記載の構成に加え、前記推論手段は、前記話者との対話を意図的に解釈する解釈手段と、前記話者との対話を管理する管理手段と、を備えたことを特徴とする。 According to an eighth aspect of the present invention, in addition to the configuration according to the seventh aspect, the inference means includes an interpretation means for intentionally interpreting the dialogue with the speaker, and a management for managing the dialogue with the speaker. Means.
ここで、話者との対話の管理とは、顧客満足度向上のため、話者がどのような発話に対しどのような感情を抱いたかを記録し、クライアント側の音声入出力装置をコールセンターに利用していた場合にオペレータに注意喚起したり、管理者に報告したりすることを含む。また、クライアント側の音声入出力装置を会議に利用していた場合に出席者が感情的になった場合に落ち着かせるように休憩を入れたり、冷静になるような旨の音声を発話したりすることを含む。 Here, the management of dialogue with the speaker is to record what kind of emotion the speaker has about what kind of utterance in order to improve customer satisfaction, and the voice input / output device on the client side is placed in the call center. This includes alerting the operator and reporting to the administrator when it is being used. Also, when using the client's voice input / output device for a meeting, if the attendees become emotional, take a break to calm down, or speak a voice to the effect of calmness Including that.
請求項9に記載の発明は、請求項4に記載の構成に加え、前記環境判断手段は、前記室内のサイズを判断するサイズ判断手段と、前記室内のノイズレベルを認識するノイズレベル認識手段と、前記室内の残響レベルを認識する残響レベル認識手段と、を備えたことを特徴とする。 According to a ninth aspect of the present invention, in addition to the configuration according to the fourth aspect, the environment determining unit includes a size determining unit that determines the size of the room, and a noise level recognizing unit that recognizes the noise level in the room. Reverberation level recognition means for recognizing the reverberation level in the room.
請求項10に記載の発明は、請求項5に記載の構成に加え、前記筐体に設けられ画像を表示する画像表示手段を備えたことを特徴とする。 According to a tenth aspect of the present invention, in addition to the configuration according to the fifth aspect, an image display means provided on the housing for displaying an image is provided.
請求項11に記載の発明は、請求項5に記載の構成に加え、前記筐体に設けられユーザを認識する指紋認証手段を備えたことを特徴とする。 The invention described in claim 11 is characterized in that, in addition to the configuration described in claim 5, a fingerprint authentication unit provided in the housing for recognizing a user is provided.
請求項12に記載の発明は、請求項1に記載の構成に加え、クライアント側の音声入出力装置の処理能力は、プロセッサの演算速度、メモリーサイズ、センサ種類、マイクアレイ、スピーカの数、LEDの数、内蔵カメラ、アプリケーションソフトウェアの数、他社の装置に対応可能なフロントエンド信号処理を含むことを特徴とする。
The invention according to
請求項13に記載の発明は、請求項1に記載の構成に加え、前記話者の音声から話し方を特徴として抽出する特徴抽出手段と、前記特徴を前記話者の情報に紐づけて記憶し、新たに入力した音声の特徴を前記記憶手段に記憶された話者の情報と照合して話者を識別する話者識別手段と、を備えたことを特徴とする。 According to a thirteenth aspect of the present invention, in addition to the configuration of the first aspect, characteristic extraction means for extracting a speech method as a feature from the speaker's voice, and storing the feature in association with the speaker information. And speaker identification means for identifying the speaker by comparing the characteristics of the newly input voice with the speaker information stored in the storage means.
請求項14に記載の発明は、請求項7に記載の構成に加え、前記話者の感情を識別する感情識別手段を備えたことを特徴とする。
The invention described in
請求項15に記載の発明は、請求項14に記載の構成に加え、前記筐体の外周に設けられ、軌道上の一部の発光色が残りの部分の発光色と異なるように周回点灯し、前記話者を検知したときに前記一部の発光色が話者の方向で停止するように発光する発光手段を備えたことを特徴とする。
The invention according to claim 15 is provided on the outer periphery of the casing in addition to the structure according to
請求項16に記載の発明は、音声に関する音声情報を入力し、前記入力された音声情報に対し、識別処理が容易となるような前段処理を行い、前記前段処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、前記タスク処理の評価が十分でない場合に前記第1の情報を修正し、前記評価が十分になるまで一連の処理を繰り返すことで最適化することを特徴とする。 According to the sixteenth aspect of the present invention, voice information related to voice is input, pre-processing is performed on the input voice information to facilitate identification processing, and predetermined processing is performed on the pre-processed voice information. To perform task processing based on the first information, modify the first information when the evaluation of the task processing is not sufficient, and optimize by repeating a series of processing until the evaluation is sufficient It is characterized by doing.
請求項17に記載の発明は、コンピュータが読み取り可能なプログラムであって、コンピュータを、音声に関する音声情報を入力する入力手段、前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段、前記前段処理手段により処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、前記タスク処理の評価が十分でない場合に前記第1の情報を修正し、前記評価が十分になるまで一連の処理を繰り返すことで最適化する最適化手段、として機能させるための音声情報処理システムのプログラムであることを特徴とする。 The invention according to claim 17 is a computer-readable program, wherein the computer has input means for inputting voice information related to voice, and the preceding stage that facilitates identification processing for the input voice information. Pre-processing means for performing processing, performing predetermined processing on the audio information processed by the pre-processing means, performing task processing based on the first information, and when the evaluation of the task processing is not sufficient, It is a program of a voice information processing system for functioning as an optimization unit that corrects information and optimizes by repeating a series of processes until the evaluation becomes sufficient.
請求項18に記載の発明は、請求項17に記載のプログラムを記録した記録媒体であることを特徴とする。
The invention according to
本発明によれば、高精度で、しかも安価に音声内容の分析、解析、認識、評価することにより最適化するとともに、会話の行われている状況をより的確に把握することを可能とする。 According to the present invention, it is possible to optimize by analyzing, analyzing, recognizing, and evaluating speech content with high accuracy and at low cost, and more accurately grasping a situation where conversation is being performed.
本発明の実施の形態を、図面を参照して説明する。 Embodiments of the present invention will be described with reference to the drawings.
<構成>
<システム全体>
図1は、本発明の一実施形態に係る音声情報処理システム全体の構成図の一例である。本発明の一実施形態に係る音声情報処理システムは、ネットワーク10を介してクラウド側サーバ20、及びクライアント側の音声入出力装置100が接続されて構成されている。
<Configuration>
<Entire system>
FIG. 1 is an example of a configuration diagram of an entire audio information processing system according to an embodiment of the present invention. The voice information processing system according to an embodiment of the present invention is configured by connecting a cloud-
音声入出力装置100とスマートフォンとで連携して音声情報処理システムを構成してもよく、Wi-Fiルータを用いてインターネット接続してもよい。なお、音声入出力装置100とスマートフォンとの間の通信手段としては、例えば、無線、赤外線、有線等どのような方法を用いてもよい。また本願を適用する、例えば音声情報処理システムが複数存在する場合には、音声入出力装置100はその数だけ存在することとなる。
A voice information processing system may be configured by linking the voice input /
<クラウド側サーバ及び音声入出力装置のハードウェア構成>
次に、図2に従ってクラウド側サーバ20の詳細を説明する。図2に示すように、クラウド側サーバ20は、データベース(以下、「DB」という。)21、プロセッサ22、出力装置23、入力装置24、及びインターフェース26等を備えて構成されている。プロセッサ(「コンピュータ」とも称する)22は、音声情報の管理に関するデータの処理を行い、DB21は音声情報の管理に関する情報等のデータ、及び制御プログラム等を記憶する。出力装置23は、ディスプレイ、プリンタ等を備えて構成され、必要に応じて各種情報を出力する。また、入力装置24は、キーボード、バーコードリーダ、及びスキャナ等を備えて構成され、必要に応じて情報の入力を行うが、情報の入力を可能とするすべての装置を含むものとする。なお、クラウド側サーバ20は最終的に音声情報処理システムとしての業務遂行が可能であれば、単独でも複数のシステムから構成されていてもよい。
<Hardware configuration of cloud server and voice input / output device>
Next, details of the cloud-
<音声入出力装置のハードウェア構成>
次に、図3に従って音声入出力装置100の詳細を説明する。同図に示すように、音声入出力装置100は、主として拡張部201、記憶部202、マイクユニット203、マイク制御部204、信号処理部205、通信部206、音声発生部207、非可聴音発生部208、及び表示部209を備える。表示部209はLED(Light Emitting Diode:発光ダイオード)210とLCD(Liquid Crystal Display:液晶表示ディスプレイ)211とを有してもよい。LED210はリング状であってもよい。
<Hardware configuration of voice input / output device>
Next, details of the voice input /
音声入出力装置100は、さらに破線で示す撮像部212、個人認証部213、IR(Infrared:赤外線)部214、投影部215、振動部216、及び回転部217を備えて構成してもよい。
The voice input /
拡張部201は音声入出力装置100にUSB(Universal Serial Bus)メモリやUSB機器を接続するための部材である。
The
記憶部202は、音声入出力装置100の制御プログラム、音声データ、個人データ、画像データ等のデータを記憶する部材であり、例えばROM(Read Only Memory:読み出し専用メモリ)、RAM(Randam Access Memory:書き換え自在メモリ)、HDD(Hard Disk Drive)、SSD(SolId State Drive)が挙げられる。
The
マイクユニット203は、少なくとも1本のマイクからなり、マイク制御部204にてAGC(Automatic Gain Control:自動利得制御)やフォーミング等の制御が行われる。
The
信号処理部205は、マイクからの音声信号に対し周囲雑音除去等の処理を施し、正確に認識処理した後、処理済みの情報を記憶部202に記憶し、音声発生部207から音声を発生させたり、マイクからの音声信号の話者識別処理や感情識別処理を行ったり、処理済みの音声情報を到来方位情報、話者識別情報、感情識別情報と共に記憶部202に記憶し、同時に表示部209に適合した表示を行ったりする。併せて通信部206や拡張部201より外部に送信し、クラウド処理等により詳細な情報分析を行うことができる。これらの処理により、特定方位に存在する雑音源からの音声情報をブロックアウトしたり、これとは逆に特定方位からの情報のみを記録したりすることができる。
The
また、記憶部202は多層構成とし、記録すべき音声情報の到来方位や話者識別、感情識別等の関連情報の整理が可能となる。
In addition, the
信号処理部205は、Wi-Fiやブルートゥース(登録商標)等により外部機器と無線通信するための通信部206とハードワイヤにて外部機器と接続する拡張部201とを有し、外部マイクにより周囲雑音を集音して拡張ポートからかかる受信雑音を入力して周囲雑音の影響を低減したり、USBポートにより外部機器と通信したりすることが可能である。
The
非可聴音発生部208から超音波を発生し、その反射による話者や壁までの距離を測定することができる。
Ultrasonic waves are generated from the non-audible
表示部209のLED210は、リング状のLEDを周回点灯させたり、点滅させたり発光間隔や発光色を変化させたりしてもよい。LCD211は、音声入出力装置100の筐体の天板や側面に設けてもよく、カラーでもモノクロでもよい。
The
撮像部212は、音声入出力装置100の周囲の状況を撮像する部材であり、例えばCCD(Charge Coupled Device:電荷結合素子)カメラが挙げられる。撮像部212による撮像画像は動画像でも静止画像でもよい。
The
個人認証部213は、ユーザの指紋や声紋を識別する部材であり、音声入出力装置100の天板に設けられた指紋識別装置であっても、話者の音声から声紋を識別する声紋識別装置(もしくはソフトウェア)であってもよい。
The
IR部214は、赤外線センサであり、人感センサとして人の侵入の監視や来客検知に用いることができる。
The
投影部215は、音声入出力装置100の筐体に設けられ、例えば会議や旅行説明のため、室内のホワイトボードや壁やスクリーンに地図や議題を投影するプロジェクターである。
The
振動部216は、クライアント側の音声入出力装置100の筐体を振動させることで、ユーザに注意を喚起させるものである。振動部216は、例えば、圧電素子や出力軸に偏芯カムを有するモータ等が挙げられる。
The
回転部217は、音声入出力装置100の底面に設けられたベースと、ベース上に設けられた回転軸と、回転軸上に設けられ筐体を回転させるモータとで構成される。この回転部217により、投影部215やLCD211の向きを変えることができる。
The
<クラウド側サーバ及び音声入出力装置のソフトウェア構成>
図4に従ってクラウド側サーバ及び音声入出力装置のソフトウェア構成について説明する。
<Software configuration of cloud server and voice input / output device>
The software configuration of the cloud server and the voice input / output device will be described with reference to FIG.
<クラウド側サーバ>
クラウド側サーバ20は、入力手段41、出力手段42、記憶手段43、判断手段44、最適化手段45、翻訳手段49、第1制御手段50、推論手段51、及び通信手段52を備えて構成されている。
<Cloud server>
The
最適化手段45は、評価手段46、修正手段47、及び繰返手段48を備える。推論手段51は、感情識別手段51a、方位検出手段51b、話者識別手段51c、収集手段51d、解釈手段51e、管理手段51f、サイズ判断手段51g、ノイズレベル認識手段51h、及び残響レベル認識手段51iを備える。
The optimization unit 45 includes an
入力手段41は、必要に応じて情報の入力を行うが、情報の入力を可能とするすべての装置を含むものであり、図2に示した入力装置24によって実現される。
The input means 41 inputs information as necessary, but includes all devices that enable input of information, and is realized by the
出力手段42は、必要に応じて各種情報を出力する手段であり、図2に示した出力装置23によって実現される。
The output means 42 is a means for outputting various information as necessary, and is realized by the
記憶手段43は、クラウド側サーバの制御プログラム、及び音声情報の管理に関する情報等のデータ等を記憶する手段であり、図2に示したデータベース21によって実現される。制御プログラムには、起動時について能動的な動作、すなわち、例えば人を検知したときに先に挨拶を言うように設定されている。
The storage means 43 is means for storing data such as information related to the control program of the cloud-side server and management of voice information, and is realized by the
判断手段44は、室内で音声の内容を分析して応答する際に、クライアント側の音声入出力装置100の処理能力が対応可能な場合にクライアント側の音声入出力装置100で情報処理を行い、クライアント側の音声入出力装置100の処理能力が対応可能でない場合にクラウド側サーバ20が情報処理を行うよう判断する手段であり、図2に示したプロセッサ22によって実現される。
The determination means 44 performs information processing in the voice input /
ここで、クライアント側の音声入出力装置100の処理能力とは、プロセッサの演算速度、メモリーサイズ、センサ種類、マイクアレイ、スピーカの数、LEDの数、内蔵カメラ、アプリケーションソフトウェアの数、他社の装置に対応可能なフロントエンド信号処理を含む。
Here, the processing capability of the voice input /
最適化手段45は、識別処理が容易となるような前段処理手段により処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、タスク処理の評価が十分でない場合に第1の情報を修正し、評価が十分になるまで一連の処理を何回でも繰り返すことで最適化する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。
When the optimization unit 45 performs predetermined processing on the voice information processed by the pre-processing unit so that the identification processing becomes easy, performs task processing based on the first information, and the task processing is not sufficiently evaluated The first information is corrected and optimized by repeating a series of processes any number of times until the evaluation becomes sufficient, and is realized by the
第1の情報とは、アプリに関連するシナリオデザイン、各種手段のうちどの手段を選択し、どの順番でどのように実行し、評価し、結果が不十分な場合に何回でも繰り返すフロー等を含む情報である。 The first information is the scenario design related to the application, which one of the various methods is selected, how and how it is executed, evaluated, and the flow that is repeated as many times as the results are insufficient. It is information to include.
最適化手段45の評価手段46は、タスク処理の結果を評価する手段である。最適化手段45の修正手段47は、結果が十分でない場合に第1の情報を修正する手段である。最適化手段45の繰返手段は、評価手段46から修正手段47までの一連の処理を何回でも繰り返す手段である。 The evaluation means 46 of the optimization means 45 is a means for evaluating the result of task processing. The correcting means 47 of the optimizing means 45 is means for correcting the first information when the result is not sufficient. The repetition means of the optimization means 45 is means for repeating a series of processes from the evaluation means 46 to the correction means 47 any number of times.
翻訳手段49は、自動的に言語を識別し、例えば日本語から日本語以外の多言語に翻訳し、日本語以外の多言語を日本語に翻訳する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。翻訳手段49は、日本語の音声を日本語以外の多言語の音声に変換したり、日本語以外の多言語の音声を日本語の音声に変換したりする、いわば、通訳機能(もしくは同時通訳機能)を有していてもよい。この場合、音声は音声合成手段により合成されるが、話者の性別、年齢を判断し、老若男女に対応した音声を発音するようにしてもよい。また、翻訳手段49は、翻訳する際はテキスト形式で翻訳内容を記録することもできるようになっている。テキストデータは話者と紐づけるようにするのが好ましい。テキストデータは話者に応じて色分けするようにしてもよい。
The translation means 49 is means for automatically identifying a language, for example, translating from Japanese to multilingual other than Japanese, and translating multilingual other than Japanese into Japanese. The
第1制御手段50は、クラウド側サーバ20の各手段を統括制御する手段であり、図2に示したプロセッサ22によって実現される。
The
推論手段51は、音声の内容の分析処理、解析処理、及び認識処理を含む情報加工処理を行い、話者の、年齢、性別を含む属性について推論する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。
The inference means 51 is a means for performing information processing including speech content analysis processing, analysis processing, and recognition processing, and inferring attributes including the age and gender of the speaker. The
感情識別手段51aは、話者の感情を識別する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。感情識別手段51aによって識別された話者の感情について話者の発話と紐づけて記録するのが好ましい。
Emotion identification means 51a is means for identifying the speaker's emotion, and is realized by the
方位検出手段51bは、音声入出力装置100から見た話者の方位を検出する手段であり、図2に示した入力装置24及びプロセッサ22によって実現される。
The direction detection means 51b is a means for detecting the direction of the speaker as viewed from the voice input /
話者識別手段51cは、話者の音声から話し方の平均的な音響モデルとの差を特徴として抽出する特徴抽出手段により得られた特徴を話者の情報に紐づけて記憶し、新たに入力した音声の特徴を記憶手段43に記憶された話者の情報と照合して話者を識別する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。話者識別に関しては、後述する音声入出力装置100に、撮像する撮像手段73や指紋認証手段72を設けることにより、顔画像認識処理や指紋認証処理によって実現するようにしてもよい。
The speaker identifying unit 51c stores the feature obtained by the feature extracting unit that extracts the difference from the average acoustic model of the speech as a feature from the speaker's voice in association with the speaker information, and newly inputs the feature. The voice characteristics are compared with the speaker information stored in the storage means 43 to identify the speaker, and is realized by the
収集手段51dは、第2の情報をデザインする際に利用したログを収集する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。第2の情報とは、前述したように各種手段のうちどの手段を用い、どの順番で処理し、評価し、結果が十分でない場合に繰り返すフローについての情報をいう。
The collecting unit 51d is a unit that collects a log used when designing the second information, and is realized by the
解釈手段51eは、話者との対話を意図的に解釈する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。
The interpretation means 51e is a means for intentionally interpreting the dialogue with the speaker, and is realized by the
管理手段51fは、話者との対話を管理する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。
The management means 51f is a means for managing dialogues with speakers, and is realized by the
サイズ判断手段51gは、室内のサイズを判断する手段であり、図2に示したインターフェース26、及びプロセッサ22によって実現される。サイズ判断手段51gは、インターフェース26を介してクライアント側の音声入出力装置100において、非可聴音を間欠発音し、周辺からの反射音をマイクで集音し、クライアント側の音声入出力装置100の環境を把握(2次元方位と距離)するようにしてもよい。
The size determination means 51g is a means for determining the indoor size, and is realized by the
ノイズレベル認識手段51hは、室内のノイズレベルを認識する手段であり、図2に示したインターフェース26、及びプロセッサ22によって実現される。ノイズレベル認識手段51hは、クライアント側の音声入出力装置100のマイクで得られた室内の音声からノイズ除去処理前のノイズレベルの情報を、インターフェース26を介して得ることができるようになっている。室内のノイズレベルによってクライアント側の音声入出力装置100の環境が例えば受付か、会議室か、コールセンター室かそれ以外かが判断できる。
The noise level recognition means 51h is a means for recognizing the indoor noise level, and is realized by the
残響レベル認識手段51iは、室内の残響レベルを認識する手段であり、図2に示したインターフェース26、及びプロセッサ22によって実現される。残響レベル認識手段51iは、クライアント側の音声入出力装置100のマイクで得られた室内の音声から残響レベルの情報を、インターフェース26を介して得ることができるようになっている。室内の残響レベルによってクライアント側の音声入出力装置100の環境が判断できる。
The reverberation level recognition means 51i is a means for recognizing the reverberation level in the room, and is realized by the
通信手段52は、クラウド側サーバ20とクライアント側の音声入出力装置100との間でネットワーク10を介して情報を授受するための手段であり、図2に示したインターフェース26によって実現できる。
The communication means 52 is means for exchanging information between the cloud-
<音声入出力装置>
クライアント側の音声入出力装置100は、主として入力手段61、出力手段62、前段処理手段63、発光手段64、通信手段65、第2制御手段66、記憶手段67、入出力手段68、及び検知手段69を備えて構成されている。音声入出力装置100は、さらに画像表示手段71、指紋認証手段72、撮像手段73、外部情報入力手段74、振動手段75、及び回転手段76を備えて構成してもよい。
<Voice input / output device>
The voice input /
入力手段61は、音声に関する音声情報を入力する手段であり、図3に示すマイクユニット203及びマイク制御部204によって実現される。入力手段61は、ビームフォーミング処理、ブラインド音源分離処理、残響抑制処理、ノイズ抑圧処理、エコーキャンセル(バージイン)処理、及び音声区間検出(Voice Activity Detection:VADとも略す。)処理を施す。
The input means 61 is means for inputting voice information related to voice, and is realized by the
出力手段62は、非可聴音(20kHz〜40kHz、好ましくは30kHzの音)を発生する手段であり、図3に示した非可聴音発生部208によって実現される。非可聴音発生部208としては、例えばムービングコイルを用いた超音波スピーカの他、圧電素子を用いた超音波スピーカが挙げられる。
The
前段処理手段63は、マイクからの音声からノイズを除去したり、エコーをキャンセルしたり、ビームフォーミング処理、ブラインド音源分離処理、残響抑制処理を行う手段であり、図3に示したマイク制御部204によって実現される。
The
発光手段64は、筐体の外周に設けられ、軌道上の一部の発光色が残りの部分の発光色と異なるように周回点灯したり、話者を検知したときに一部の発光色が話者の方向で停止するように発光したりする手段であり、図3に示したLED210によって実現される。
The light emitting means 64 is provided on the outer periphery of the housing, and turns on so that a part of the light emission color on the track is different from the light emission color of the remaining part, or a part of the light emission color when the speaker is detected. It is means for emitting light so as to stop in the direction of the speaker, and is realized by the
通信手段65は、クライアント側の音声入出力装置100とクラウド側サーバ20との間でネットワーク10を介して情報を授受する手段であり、図3に示した通信部206によって実現される。
The communication means 65 is means for exchanging information between the client-side voice input /
第2制御手段66は、音声入出力装置100を統括制御する手段であり、図3に示した信号処理部205によって実現される。信号処理部205としては、例えばプロセッサが挙げられる。
The second control means 66 is a means for comprehensively controlling the voice input /
記憶手段67は、音声入出力装置100を統括制御するプログラムを記憶する手段であり、図3に示した記憶部202によって実現される。記憶手段67は、例えばROM、RAM、HDD、SSDが挙げられ、音声情報、個人情報、画像情報、指紋情報を記憶するように構成してもよい。
The storage means 67 is a means for storing a program for overall control of the voice input /
入出力手段68は、USBフラッシュメモリやUSB機器を接続するための手段であり、図3に示した拡張部201によって実現される。
The input / output means 68 is means for connecting a USB flash memory or a USB device, and is realized by the
検知手段69は、音声入出力装置100に接近したり通過したりする人を検知する手段であり、図3に示したIR部214が挙げられる。検知手段69としては、例えば人感センサが挙げられる。
The detection means 69 is a means for detecting a person who approaches or passes the voice input /
画像表示手段71は、文字情報を含む静止画像や動画像等の画像を表示する手段であり、図3に示したLCD211によって実現される。
The image display means 71 is a means for displaying an image such as a still image or a moving image including character information, and is realized by the
指紋認証手段72は、ユーザを認識する手段であり、図3に示した個人認証部213によって実現される。指紋認証手段72としては、例えば指紋センサが挙げられる。
The fingerprint authentication means 72 is a means for recognizing a user, and is realized by the
撮像手段73は、デジタルカメラであり、図3に示した撮像部212によって実現される。
The imaging means 73 is a digital camera and is realized by the
外部情報入力手段74は、外部からのコンテンツを入力する手段であり、図3に示した拡張部201によって実現される。
The external
振動手段75は、音声入出力装置100の筐体を振動させる手段であり、図3に示した振動部216によって実現される。
The vibration means 75 is a means for vibrating the casing of the voice input /
回転手段76は、音声入出力装置100の筐体を鉛直な中心軸の周りに回転(旋回)させる手段であり、図3に示した回転部217によって実現される。
The rotating means 76 is means for rotating (turning) the casing of the voice input /
投影手段77は、室内のスクリーン、ホワイトボード、壁面等に画像を投影する手段であり、図3に示した投影部215によって実現される。
The projection means 77 is a means for projecting an image onto an indoor screen, whiteboard, wall surface, etc., and is realized by the
<ソフトウェアスタック>
上記に示す分析処理、解析処理、認識処理等の構成について、図5のソフトウェアスタック図の処理内容に従って説明する。処理内容は、利用ログ収集・解析部503、意図解釈・対話管理技術部504、音声認識部505、話者識別部506、環境音認識部507、感情分析部508、フロントエンド信号処理技術部509、マイクアレイ処理技術部510、マルチマイクアレイ処理技術部510、マルチマイクハードウェア部512、センサ515等から構成される。意図的解釈・対話管理技術部504は、外部システム513や外部コンテンツ514が接続されていてもよい。対話アプリ501−1〜501−nに応じてシナリオデザインが評価される。その際利用ログ収集・解析して継続的に改善する。尚、図では継続的改善に3つの矢印が記載されているが、意図的解釈・対話管理技術部504、音声認識部505、話者識別部506、環境音認識部507、感情分析部508、フロントエンド信号処理技術部509、マイクアレイ処理技術部510、及びマルチマイクハードウェア部512についても、順番を入れ替えたり、一部を省略したりするとともに継続的改善が行われるので矢印が記載されていてもよい。
<Software stack>
The configuration of the analysis processing, analysis processing, recognition processing, and the like described above will be described according to the processing contents of the software stack diagram of FIG. The processing contents include a usage log collection /
マルチマイクハードウェア512やフロントエンド信号処理技術部509は他社製品にも柔軟に対応可能である。
The
マイクアレイ処理技術部510は、ビームフォーミング処理、ブラインド音源分離処理、残響抑制処理等から構成され、フロントエンド信号処理技術部509はノイズ抑圧処理、エコーキャンセル(バージイン)処理、音声区間検出(「VAD」とも略す。)処理等から構成され、音声を文字等に変換する音声認識部505は多言語対応処理、自動言語識別処理、多言語混合処理等から構成され、話者識別部506は事前学習処理、クラスタリング処理、さらに話者照合(認証)処理等から構成され、感情分析部508は感情多クラス分類処理、感情マッピング処理、抑揚認識処理等から構成され、環境音認識部507は拍手音・笑い声認識処理、重なり検出処理、シーン推定処理、さらに異音検査処理は音響官能検査処理、正常/異常音識別処理等から構成される。
The microphone array
以上、音声処理の構成を説明したが、音声処理により、笑い声、拍手、呼び鈴といった特徴のある音の認識、話者識別、性別推定、イントネーション判定等の処理を行う。ただし、上記各処理を可能とするためには、音の前処理として、音声切り出し、ノイズ抑圧、残響抑圧、音源定位すなわち指定角度の音を取り出すビームフォーミング等の処理を行うものとする。さらに、上記各処理による認識結果情報は、例えば関連システムと連携して、利用ログ収集・解析技術部503、意図解釈・対話管理技術部504により解析、管理処理を行うものとする。
Although the configuration of the voice processing has been described above, the voice processing performs processing such as recognition of characteristic sounds such as laughter, applause, and bells, speaker identification, gender estimation, intonation determination, and the like. However, in order to enable each of the above processing, as sound preprocessing, processing such as voice extraction, noise suppression, reverberation suppression, sound source localization, that is, beam forming for extracting a sound at a specified angle is performed. Further, the recognition result information obtained by each process is analyzed and managed by the usage log collection /
また、人の話し声を例えばマイクによって収集するだけでなく、例えばスピーカにより、人の聴覚では聞くことができない、例えば超可聴音もしくは非可聴音を発音し、この超可聴音もしくは非可聴音の反射音を例えばマイクによって収音し、この情報を音声処理により解析、認識処理を行い、音声入出力装置100の周辺状況に関し、反射する対象の材質、距離等を把握するものとする。これらを可能とするために、例えばマイクを複数搭載するとともに、例えば水平方向に円形状にマイクを搭載したマイク搭載部(図示せず)を縦方向に、例えば2層搭載することにより、垂直方向の検知を可能とする。また、発音する超可聴音もしくは非可聴音を例えばパルス状に成形し、あるパルス音から次のパルス音との間隔に、ある音声入出力装置100に特有の情報音を付加することにより、複数の音声入出力装置100を識別することを可能とする。
In addition to collecting a person's speech, for example, using a microphone, the speaker produces, for example, a super audible sound or a non-audible sound that cannot be heard by a person's hearing, for example, and a reflection of the super audible sound or non-audible sound. The sound is collected by, for example, a microphone, and this information is analyzed and recognized by voice processing, and the material, distance, and the like of the object to be reflected are grasped regarding the surrounding situation of the voice input /
ここで、本実施形態によれば、話者識別や感情識別等の音声処理や利用ログ収集、解析、意図解釈等のどの処理を使うか、どの順番で使うか、ノイズを除去してから残響処理を行うか、残響処理を行ってからノイズを除去するのかはユーザが自由に選べるようになっている。 Here, according to the present embodiment, which processing is used, such as voice processing such as speaker identification and emotion identification, usage log collection, analysis, and intention interpretation, in which order, and reverberation after removing noise. The user can freely select whether the noise is removed after performing the processing or the reverberation processing.
<音声情報処理システム>
図6に示すシステムは、音声入出力装置100と、クラウド側サーバ20と、を有するシステムである。
<Voice information processing system>
The system illustrated in FIG. 6 is a system including the voice input /
音声入出力装置100は、多数の貫通孔が形成された筐体101の天板外周部に配置されたLED(Light Emitting Diode:発光ダイオード)リング102と、筐体101の同一平面の周面に円周状に配置された複数(例えば16個であるが限定されない。)のPDMマイク103−1〜103−16と、筐体101内に下端向きに配置されたスピーカ群(スコーカ104S、ツイータ104S)と、筐体101の底面に上向きに凸の円錐形状の反射板105と、を備える装置である。筐体101内には各種回路基板が設けられている。106は電源ランプとしてのLEDである。107は電源コードであるが、バッテリー搭載可能である。
The voice input /
筐体101は、図では円筒状であるが限定されず角柱状であっても、円錐状であっても、角錐台状であっても、円錐台状であってもよい。
The
LEDリング102は多数の3色LED多色発光型のデバイスであり、環状に形成されたものである。LEDリング102は、一部の数個の隣接配置されたLEDと他の残りの部分のLEDとが異なる発光色で発光したり、円周軌道にそって回転したり停止したりし、周回点灯したりすることが可能である。例えば、話者方向を数個のLEDで白色点灯し、残りのLEDを青色点灯することが挙げられるが、これに限定されるものではなく、点灯の代わりに点滅させたり、インジケータのように話者の音声の強度に応じて照度を変化させたりしてもよい。
The
PDMマイク103−1〜103−16は、筐体101の同一平面の周面に16個等間隔で配置されているため、反射音より音源の左右方向の識別が20度の範囲で可能であり、音声入出力装置100の近傍にいる音源としての人の音声を集音することが可能である。
Since 16 PDM microphones 103-1 to 103-16 are arranged at equal intervals on the same plane of the
スコーカ104Sは通常の音声を発生するスピーカであり、ツイータ104Tは非可聴音(超音波)を発生するスピーカである。反射板105は、スコーカ104S及びツイータ104Sからの音声や非可聴音を筐体101の外側に放射状に反射させる部材である。ツイータ104からの非可聴音は反射板105で反射され筐体101の外部に出射して話者に反射した場合には筐体101に向かい、PDMマイク103−1〜103−16で集音することでレーダー(もしくはソナー)のように機能させることができる。この非可聴音はパルス変調されていてもよい。
クラウドシステム300は、複数のサーバを有するサーバ群301からなり、音声入出力装置100のディープラーニング処理等のソフトウェア処理を行ってもよい。
The squawker 104S is a speaker that generates normal sound, and the tweeter 104T is a speaker that generates inaudible sound (ultrasonic waves). The
The cloud system 300 includes a server group 301 having a plurality of servers, and may perform software processing such as deep learning processing of the voice input /
<動作1>
図7に示すフローチャートの動作の主体は、クラウド側サーバ20のプロセッサ22である。
<
The subject of the operation of the flowchart shown in FIG.
本システムは、予めユーザが第1の情報としてのシナリオを設定可能である。シナリオとは、例えば、話者と音声入出力装置100との対話に対してどのように応答するかを示すストーリーである。
In this system, a user can set a scenario as first information in advance. The scenario is, for example, a story indicating how to respond to a dialogue between the speaker and the voice input /
まずユーザがクラウド側サーバ20で複数情報(例えば、第1の情報、第2の情報、第3の情報)を作成する(ステップS10)。 First, the user creates a plurality of information (for example, first information, second information, and third information) in the cloud-side server 20 (step S10).
音声入出力装置100の電源スイッチがオンされると(ステップS11)、プロセッサ22は音声入出力装置100の外部から、例えば図示しないスマートフォンでモード設定信号が有るか否か判断する(ステップS12)。
When the power switch of the voice input /
プロセッサ22は、外部からモード設定信号が有ると判断した場合(ステップS12/YES)、コールセンターモード、受付モード、会議モード、…のうちのいずれかのモードが設定され(ステップS13)、外部からモード設定信号が無いと判断した場合(ステップS12/NO)、ステップS14に進む。
When the
ステップS14では、プロセッサ22が、クライアント側の音声入出力装置100の処理能力が十分か否かを判断し、音声入出力装置10の処理能力が十分であると判断した場合(ステップS14/YES)、クライアント側の音声入出力装置100で処理し(ステップS15)、クライアント側の音声入出力装置100の処理能力が十分でないと判断した場合(ステップS14/NO)クラウド側で処理し(ステップS16)、ステップS17に進む。
In step S14, the
プロセッサ22は、最適化済か否か判断し(ステップS17)、最適化済でない場合(ステップS17/NO)、第1の情報を選択し(ステップS18)、識別処理が容易となるような前段処理を実行する。前段処理は、第1の情報として、例えば、ビームフォーミング、ブラインド音源分離、及び残響抑制のいずれかから少なくとも一つ選択して、順番を決定し、実行する。ノイズ抑圧、エコーキャンセル、及び音声区間検出から適宜選択して、順番を決定し、実行するものとする(ステップS19)。
The
次にタスクの評価(ステップS20)を行い、評価が十分か否かを判断し(ステップS21)、評価が十分でないと判断した場合(ステップS21/NO)、ステップS10に戻り、クラウド側で第1の情報を修正し、ステップS10〜ステップS23を何回でも繰り返す。
Next, the task is evaluated (step S20), it is determined whether or not the evaluation is sufficient (step S21), and if it is determined that the evaluation is not sufficient (step S21 / NO), the process returns to step S10 and the
プロセッサ22は、ステップS21でタスクの評価が十分であると判断した場合(ステップS21/YES)、第2の情報を選択し(ステップS22)、識別処理を実行する。識別処理は、第2の情報として、例えば、音声認識、話者識別、感情分析、及び環境音認識のいずれかから少なくとも一つ選択して、順番を決定し、実行するものとする(ステップS23)。
When the
次にタスクの評価(ステップS24)を行い、評価が十分か否かを判断し(ステップS25)、評価が十分でないと判断した場合(ステップS25/NO)、ステップS10に戻り、クラウド側で第2の情報を修正し、ステップS10〜ステップS24を何回でも繰り返す。 Next, the task is evaluated (step S24), it is determined whether the evaluation is sufficient (step S25), and if it is determined that the evaluation is not sufficient (step S25 / NO), the process returns to step S10, and the cloud side 2 is corrected, and Steps S10 to S24 are repeated any number of times.
プロセッサ22は、ステップS24でタスクの評価が十分であると判断した場合(ステップS24/YES)、第3の情報を選択し(ステップS26)、対話アプリを実行する。対話アプリについては、第3の情報として、利用ログ収集、解析、意図的解釈、及び対話管理のいずれかから少なくとも一つ選択して、順番を決定し、実行するものとする(ステップS27)。
When the
次に、タスクの評価(ステップS28)を行い、評価が十分か否かを判断し(ステップS29)、評価が十分でないと判断した場合(ステップS29/NO)、ステップS10に戻り、クラウド側で第3の情報を修正し、ステップS10〜ステップS28を何回でも繰り返す。 Next, the task is evaluated (step S28), it is determined whether the evaluation is sufficient (step S29), and if it is determined that the evaluation is not sufficient (step S29 / NO), the process returns to step S10, and the cloud side The third information is corrected, and steps S10 to S28 are repeated any number of times.
プロセッサ22は、最適化が完了すると(ステップS30.)、アプリを実行し(ステップS31)、終了しない場合(ステップS32/NO)、ステップS12に戻り、終了する場合(ステップS32/YES)、終了する。この場合、電源スイッチが自動的オフになるように構成してもよい。
When the optimization is completed (step S30), the
ここで、図7に示したフローチャートは一実施例に過ぎず、限定されるものではない。例えば、室内環境が同一であって、話者の数に変更があったり、室内環境に変更があっても話者や人数に変更がなかったり、使用するモードが変更になったり、使用するマイクの数やグレードに変更があったりしても、適宜ステップS18〜ステップS21と、ステップS22〜ステップS25と、ステップS26〜ステップS29とを入れ替えたり、一部を省略したりすることで継続的改善が施されるとともに柔軟な対応が可能である。 Here, the flowchart shown in FIG. 7 is only an example and is not limited. For example, if the indoor environment is the same and there are changes in the number of speakers, even if there is a change in the indoor environment, there is no change in the number of speakers or people, the mode used is changed, the microphone used Even if there is a change in the number or grade, continuous improvement is possible by replacing Step S18 to Step S21, Step S22 to Step S25, and Step S26 to Step S29 as appropriate, or omitting some of them. Can be applied flexibly.
例えば、図7に示したフローチャートに基づいて処理する場合、マイクユニットのマイクが1本の場合にはビームフォーミングやブラインド音源分離は行わず、また、マイクの性能が高性能でない場合にはノイズ抑圧は1回だけ行い、マイクユニットのマイクが多数、例えば16個以上の場合にはビームフォーミンツやブラインド音源処理を行い、ノイズ抑圧やエコーキャンセル等の処理を行うようになっている。 For example, when processing is performed based on the flowchart shown in FIG. 7, beam forming and blind sound source separation are not performed when there is one microphone of the microphone unit, and noise suppression is performed when the performance of the microphone is not high performance. Is performed only once. When there are a large number of microphones in the microphone unit, for example, 16 or more, beam forming and blind sound source processing are performed, and processing such as noise suppression and echo cancellation is performed.
<動作2>
図8に示すフローチャートの動作の主体は、クラウド側サーバ20のプロセッサ22である。図8に示したフローチャートの図7に示したフローチャートとの相違点は、ステップS18〜ステップS21と、ステップS26〜ステップS29とを入れ替えた点である。これは、クラウド側サーバで処理した場合に図7に示したフローチャートで処理しても結果が不十分な場合に行う処理の一例である。このような処理を行っても継続的改善が施されるとともに柔軟な対応が可能である。
<Operation 2>
8 is the
<動作3>
図9に示したフローチャートは、音声入出力装置100の使用が終了し、電源スイッチをオフにした状態で受付、会議室、もしくはコールセンターのオペレータの机の上に載置し、翌営業日に再度電源スイッチをオンにした場合について想定したものである。
<
The flowchart shown in FIG. 9 is placed on the reception desk, conference room, or call center operator desk with the power switch turned off after the use of the voice input /
電源スイッチがオンされると(ステップS91)、プロセッサ22は、室内環境、話者の変更、人数及びモード変更が無いか否かを判断し(ステップS92)、変更が無い場合(ステップS92/YES)、アプリを実行する(ステップS93)。
When the power switch is turned on (step S91), the
プロセッサ22は、アプリを実行した後終了か否か判断し(ステップS94)、終了の場合には終了し(ステップS94/YES)、終了しない場合にはステップS92に戻る(ステップS94/NO)。
The
プロセッサ22は、室内環境、話者の変更、人数及びモード変更が有った場合(ステップS92/NO)、クライアント側の音声入出力装置100の処理能力が十分か否かを判断する(ステップS95)。
When there is an indoor environment change, speaker change, number of persons, and mode change (step S92 / NO), the
プロセッサ22は、クライアント側の音声入出力装置100の処理能力が十分であると判断した場合(ステップS95/YES)、音声入出力装置100で処理し(ステップS96)、クライアント側の音声入出力装置100の処理能力が十分でないと判断した場合(ステップS96/NO)、クラウド側で処理し(ステップS97)、ステップS98に進む。
When the
プロセッサ22は、モード設定信号が有るか否か判断し(ステップS98)、外部からモード設定信号が有ると判断した場合(ステップS98/YES)、コールセンターモード、受付モード、会議モード、…のうちのいずれかのモードが設定され(ステップS99)、外部からモード設定信号が無いと判断した場合(ステップS98/NO)、ステップS14(図7参照。)に進む。
The
ステップS92の処理により、無駄な処理が省略され効率が向上する。 By the processing in step S92, useless processing is omitted and efficiency is improved.
以上で説明した本発明に係る音声入出力装置100は、コンピュータで処理を実行させる制御プログラムによって実現されている。一例として、プログラムにより本発明の機能を実現する場合の説明を以下で行う。
The voice input /
コンピュータが読み取り可能なプログラムであって、
コンピュータを、
音声に関する音声情報を入力する入力手段、
入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段、
前段処理手段により処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、タスク処理の評価が十分でない場合に第1の情報を修正し、評価が十分になるまで一連の処理を繰り返すことで最適化する最適化手段、
として機能させるための音声情報処理システムのプログラムが挙げられる。
A computer-readable program,
Computer
Input means for inputting voice information related to the voice;
Pre-stage processing means for performing pre-stage processing that facilitates identification processing on the input voice information;
Predetermined processing is performed on the audio information processed by the preceding processing means, task processing is performed based on the first information, and if the evaluation of the task processing is not sufficient, the first information is corrected and the evaluation becomes sufficient Optimization means to optimize by repeating a series of processing until
A program of a voice information processing system for functioning as
これにより、プログラムが実行可能なコンピュータ環境さえあれば、どこにおいても本発明にかかる音声入出力装置100を実現することができる。
Thus, the voice input /
このようなプログラムは、コンピュータに読み取り可能な記録媒体に記憶されていてもよい。 Such a program may be stored in a computer-readable recording medium.
<記録媒体>
ここで、記録媒体としては、例えばCD-ROM、フレキシブルディスク(FD)、CD−R等のコンピュータで読み取り可能な記録媒体、フラッシュメモリ、RAM、ROM、FeRAM等の半導体メモリやHDDが挙げられる。
<Recording medium>
Here, examples of the recording medium include computer-readable recording media such as CD-ROM, flexible disk (FD), and CD-R, semiconductor memories such as flash memory, RAM, ROM, and FeRAM, and HDD.
CD−ROMは、Compact Disc Read Only Memoryの略である。フレキシブルディスクは、Flexible Diskを意味する。CD-Rは、CD Recordableの略である。FeRAMは、Ferroelectric RAMの略で、強誘電体メモリを意味する。HDDは、Hard Disc Driveの略である。 CD-ROM is an abbreviation for Compact Disc Read Only Memory. The flexible disk means a flexible disk. CD-R is an abbreviation for CD Recordable. FeRAM is an abbreviation for Ferroelectric RAM and means a ferroelectric memory. HDD is an abbreviation for Hard Disc Drive.
尚、上述した実施の形態は、本発明の好適な実施の形態の一例を示すものであり、本発明はそれに限定されることなく、その要旨を逸脱しない範囲内において、種々変形実施が可能である。 The above-described embodiment shows an example of a preferred embodiment of the present invention, and the present invention is not limited thereto, and various modifications can be made without departing from the scope of the invention. is there.
本発明は、主に音声による情報をもとに対象の状況を、詳細に知ることができるだけでなく、将来にわたり、発生が予測される事項について認識可能とした上で、関係者全般に対し情報を提供することを可能とすることで、主に音声による状況把握を必要とする場面に適用可能である。 The present invention is not only capable of knowing the situation of the object in detail based mainly on information by voice, but also making it possible to recognize matters that are expected to occur in the future. It is applicable to the scene that needs to grasp the situation mainly by voice.
10 ・・・ネットワーク
20 ・・・クラウド側サーバ
21 ・・・データベース(DB)
22 ・・・プロセッサ
23 ・・・出力装置
24 ・・・入力装置
26 ・・・インターフェース
100 ・・・音声入出力装置100
101 ・・・筐体
102 ・・・LEDリング
103−1〜103−16 ・・・PDMマイク
104 ・・・スピーカ群
104S ・・・スコーカ
104T ・・・ツイータ
105 ・・・反射板
106 ・・・電源ランプ
107 ・・・電源コード
201 ・・・拡張部
202 ・・・記憶部
203 ・・・マイクユニット
204 ・・・マイク制御部
205 ・・・信号処理部
206 ・・・通信部
207 ・・・音声発生部
208 ・・・非可聴音発生部
209 ・・・表示部
10 ...
22 ...
DESCRIPTION OF
Claims (18)
前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段と、
前記前段処理手段により処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、前記タスク処理の評価が十分でない場合に前記第1の情報を修正し、前記評価が十分になるまで一連の処理を繰り返すことで最適化する最適化手段と
を備えたことを特徴とする音声情報処理システム。 An input means for inputting voice information about the voice;
Pre-stage processing means for performing pre-stage processing for facilitating identification processing on the input voice information;
Predetermined processing is performed on the audio information processed by the pre-processing unit, task processing is performed based on the first information, and the first information is corrected when the evaluation of the task processing is not sufficient, and the evaluation An audio information processing system comprising: optimization means for optimizing by repeating a series of processes until the signal becomes sufficient.
前記タスク処理の結果を評価する第1の評価手段と、
前記評価が十分でない場合に前記第1の情報を修正する修正手段と、
前記前段処理手段から前記修正手段までの一連の処理を繰り返す繰返手段と
を備えたことを特徴とする請求項1に記載の音声情報処理システム。 The optimization means includes
First evaluation means for evaluating a result of the task processing;
Correction means for correcting the first information when the evaluation is not sufficient;
The speech information processing system according to claim 1, further comprising: a repeating unit that repeats a series of processing from the preceding processing unit to the correcting unit.
第2の情報をデザインする際に利用したログを収集する収集手段と、
前記ログを解析する解析手段と、
前記応答及び前記第2の情報を評価する第2の評価手段と
を備え、
前記評価に基づいて継続的に改善することで最適化することを特徴とする請求項1に記載の音声情報処理システム。 An inference means for performing an information processing process including an analysis process, an analysis process, and a recognition process of the content of the voice, and inferring an attribute including a speaker's age and sex;
A collecting means for collecting logs used when designing the second information;
Analyzing means for analyzing the log;
Second evaluation means for evaluating the response and the second information, and
The voice information processing system according to claim 1, wherein the voice information processing system is optimized through continuous improvement based on the evaluation.
前記話者との対話を意図的に解釈する解釈手段と、
前記話者との対話を管理する管理手段と
を備えたことを特徴とする請求項7に記載の音声情報処理システム。 The inference means is
Interpretation means for intentionally interpreting the conversation with the speaker;
The voice information processing system according to claim 7, further comprising management means for managing a dialogue with the speaker.
前記室内のサイズを判断するサイズ判断手段と、
前記室内のノイズレベルを認識するノイズレベル認識手段と、
前記室内の残響レベルを認識する残響レベル認識手段と
を備えたことを特徴とする請求項4に記載の音声情報処理システム。 The environment judgment means includes
Size determining means for determining the size of the room;
Noise level recognition means for recognizing the noise level in the room;
The sound information processing system according to claim 4, further comprising reverberation level recognition means for recognizing the reverberation level in the room.
前記特徴を前記話者の情報に紐づけて記憶し、新たに入力した音声の特徴を前記記憶手段に記憶された話者の情報と照合して話者を識別する話者識別手段と
を備えたことを特徴とする請求項1に記載の音声情報処理システム。 Feature extraction means for extracting speech from the voice of the speaker as a feature;
Speaker identification means for identifying the speaker by storing the characteristic in association with the speaker information, and comparing the newly input voice characteristic with the speaker information stored in the storage means; The voice information processing system according to claim 1, wherein:
前記入力された音声情報に対し、識別処理が容易となるような前段処理を行い、
前記前段処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、前記タスク処理の評価が十分でない場合に前記第1の情報を修正し、前記評価が十分になるまで一連の処理を繰り返すことで最適化することを特徴とする音声情報処理システムの制御方法。 Enter audio information about the audio,
For the input voice information, perform pre-processing that facilitates identification processing,
Apply predetermined processing to the audio information processed in the previous stage, perform task processing based on the first information, modify the first information when the evaluation of the task processing is not sufficient, and the evaluation is sufficiently performed A control method for a speech information processing system, characterized by optimizing by repeating a series of processes until
コンピュータを、
音声に関する音声情報を入力する入力手段、
前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段、
前記前段処理手段により処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、前記タスク処理の評価が十分でない場合に前記第1の情報を修正し、前記評価が十分になるまで一連の処理を繰り返すことで最適化する最適化手段、
として機能させるための音声情報処理システムのプログラム。 A computer-readable program,
Computer
Input means for inputting voice information related to the voice;
Pre-stage processing means for performing pre-stage processing for facilitating identification processing on the input voice information,
Predetermined processing is performed on the audio information processed by the pre-processing unit, task processing is performed based on the first information, and the first information is corrected when the evaluation of the task processing is not sufficient, and the evaluation Optimization means to optimize by repeating a series of processes until the
Program for voice information processing system to function as
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017124675 | 2017-06-26 | ||
| JP2017124675 | 2017-06-26 |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019210065A Division JP2020042292A (en) | 2017-06-26 | 2019-11-20 | Voice information processing system, control method for voice information processing system, program for voice information processing system, and recording medium |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2019008274A true JP2019008274A (en) | 2019-01-17 |
Family
ID=65029524
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018075244A Pending JP2019008274A (en) | 2017-06-26 | 2018-04-10 | Voice information processing system, control method of voice information processing system, program of voice information processing system and storage medium |
| JP2019210065A Pending JP2020042292A (en) | 2017-06-26 | 2019-11-20 | Voice information processing system, control method for voice information processing system, program for voice information processing system, and recording medium |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019210065A Pending JP2020042292A (en) | 2017-06-26 | 2019-11-20 | Voice information processing system, control method for voice information processing system, program for voice information processing system, and recording medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (2) | JP2019008274A (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7737976B2 (en) | 2020-02-25 | 2025-09-11 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Speaker identification device, speaker identification method, and program |
| JP7680883B2 (en) | 2021-05-26 | 2025-05-21 | シャープ株式会社 | Audio processing system and audio processing method |
| KR102708689B1 (en) * | 2021-10-15 | 2024-09-24 | 엘지전자 주식회사 | Concierge device providing artificial intelligence concierge service and control method of the device |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10254475A (en) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | Voice recognition method |
| JPH1138998A (en) * | 1997-07-16 | 1999-02-12 | Olympus Optical Co Ltd | Noise suppression device and recording medium on which noise suppression processing program is recorded |
| JP2000222000A (en) * | 1999-01-29 | 2000-08-11 | Canon Inc | Voice recognition device |
| JP2003330488A (en) * | 2002-05-10 | 2003-11-19 | Nissan Motor Co Ltd | Voice recognition device |
| JP2005115569A (en) * | 2003-10-06 | 2005-04-28 | Matsushita Electric Works Ltd | Signal identification device and method |
| JP2008275881A (en) * | 2007-04-27 | 2008-11-13 | Internatl Business Mach Corp <Ibm> | Object sound extraction method by removing noise, preprocessing section, voice recognition system and program |
| WO2012060077A1 (en) * | 2010-11-05 | 2012-05-10 | 日本電気株式会社 | Information processing device, information processing system, information processing method, and program |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003271168A (en) * | 2002-03-15 | 2003-09-25 | Nippon Telegr & Teleph Corp <Ntt> | Signal extraction method and signal extraction device, signal extraction program, and recording medium recording the program |
| JP2005080110A (en) * | 2003-09-02 | 2005-03-24 | Yamaha Corp | Audio conference system, audio conference terminal, and program |
| JP2007318438A (en) * | 2006-05-25 | 2007-12-06 | Yamaha Corp | Voice state data generating device, voice state visualizing device, voice state data editing device, voice data reproducing device, and voice communication system |
| JP4875656B2 (en) * | 2008-05-01 | 2012-02-15 | 日本電信電話株式会社 | Signal section estimation device and method, program, and recording medium |
| EP3110141A4 (en) * | 2014-02-18 | 2017-09-27 | Sony Corporation | Information processing apparatus, control method, program, and system |
-
2018
- 2018-04-10 JP JP2018075244A patent/JP2019008274A/en active Pending
-
2019
- 2019-11-20 JP JP2019210065A patent/JP2020042292A/en active Pending
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10254475A (en) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | Voice recognition method |
| JPH1138998A (en) * | 1997-07-16 | 1999-02-12 | Olympus Optical Co Ltd | Noise suppression device and recording medium on which noise suppression processing program is recorded |
| JP2000222000A (en) * | 1999-01-29 | 2000-08-11 | Canon Inc | Voice recognition device |
| JP2003330488A (en) * | 2002-05-10 | 2003-11-19 | Nissan Motor Co Ltd | Voice recognition device |
| JP2005115569A (en) * | 2003-10-06 | 2005-04-28 | Matsushita Electric Works Ltd | Signal identification device and method |
| JP2008275881A (en) * | 2007-04-27 | 2008-11-13 | Internatl Business Mach Corp <Ibm> | Object sound extraction method by removing noise, preprocessing section, voice recognition system and program |
| WO2012060077A1 (en) * | 2010-11-05 | 2012-05-10 | 日本電気株式会社 | Information processing device, information processing system, information processing method, and program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2020042292A (en) | 2020-03-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12125483B1 (en) | Determining device groups | |
| US11172122B2 (en) | User identification based on voice and face | |
| US11922095B2 (en) | Device selection for providing a response | |
| JP5704598B2 (en) | Animal-machine voice interaction system | |
| US9076450B1 (en) | Directed audio for speech recognition | |
| US11941968B2 (en) | Systems and methods for identifying an acoustic source based on observed sound | |
| JP6675527B2 (en) | Voice input / output device | |
| CN112074901A (en) | Speech recognition login | |
| KR20120027718A (en) | Method and apparatus for microphone beamforming | |
| CN102903362A (en) | Integrated local and cloud-based speech recognition | |
| US9131068B2 (en) | Systems and methods for automatically connecting a user of a hands-free intercommunication system | |
| JP7400364B2 (en) | Speech recognition system and information processing method | |
| JP2020042292A (en) | Voice information processing system, control method for voice information processing system, program for voice information processing system, and recording medium | |
| US20240079007A1 (en) | System and method for detecting a wakeup command for a voice assistant | |
| US12057118B2 (en) | Information processing apparatus and information processing method | |
| CN112420046B (en) | Multi-person conference method, system and device suitable for hearing impaired people to participate | |
| Veena et al. | Sound classification system using deep neural networks for hearing impaired people | |
| EP3412036B1 (en) | Method for assisting a hearing-impaired person in following a conversation | |
| KR20190052443A (en) | Apparatus and method for voice translation of companion animal | |
| CN114571473A (en) | Control method and device for foot type robot and foot type robot | |
| TWI779327B (en) | Method of adjusting volume of audio output by a mobile robot device | |
| JP2021536692A (en) | Human machine voice dialogue device and its operation method | |
| US11275551B2 (en) | System for voice-based alerting of person wearing an obstructive listening device | |
| JP6112913B2 (en) | Surveillance camera system and method | |
| JP2020155061A (en) | Personal identification system, personal identification device, personal identification method and computer program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180531 |
|
| A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20180531 |
|
| A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20180607 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180814 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20181015 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181213 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190312 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190513 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20190820 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191120 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20200108 |
|
| A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20200207 |