JP2019197550A

JP2019197550A - 音声入出力装置

Info

Publication number: JP2019197550A
Application number: JP2019105601A
Authority: JP
Inventors: 真人藤野; Masato Fujino
Original assignee: Fairy Devices Inc
Current assignee: Fairy Devices Inc
Priority date: 2017-06-26
Filing date: 2019-06-05
Publication date: 2019-11-14
Also published as: JP2019009770A; JP6675527B2

Abstract

【課題】使用環境に適合して正しく音声認識するとともに話者の特定や感情状態に適合した反応をする音声入出力装置を提供すること。【解決手段】本願の一態様に係る音声入出力装置は、可聴音から非可聴音までを受信できる複数のマイクが立体的に配置された音受付部と、単数あるいは複数のスピーカによって可聴音及び／もしくは非可聴音を発音する発音部と、前記マイクからの信号を処理制御する信号処理部と、前記信号処理部の処理結果に基づいた表示を行う表示部と、前記音受付部によって収音された音情報を記録する記録部とを有することを特徴とする。【選択図】図１Ａ

Description

本発明はたとえば音声入出力装置に係り、特に利用者の利用形態に適合した音声入出力装置に関する。

近年、コンピュータ及び通信装置の高性能化により、端末装置の高性能化に加えて、クラウドと呼ばれる、ネットワークを介しての高度な情報処理が可能となってきている。特に、ＡＩスピーカと称される、マイクロフォン（以下「マイク」と省略する。）から音声入力を受け付ける音声入力機能と、スピーカから音声を出力する音声出力機能とを備えた音声入出力装置が普及している。このような音声入出力装置においては、各種の使用環境下においてマイクから入力される音声を正しく認識し、遅滞なく音声出力や表示等により反応すると共に、入力された音声を正しく記録することが求められる。

この点で、特許文献１では、スピーカからの音と周辺の雑音と利用者の音声とが同時に存在するような使用環境で、利用者が発生した音声を明瞭に認識するとする技術思想が開示されている。

また、特許文献２では、使用者の音声とスピーカからの音声出力とが時間的に重なった場合の音声認識の精度を向上させるとする技術思想が開示されている。

しかし、特許文献１および２においては、より確実な音声認識に結び付けるような技術思想は開示されていない。

また、上記両文献とも音声記録については詳しく触れられていない。特に、音声を識別し、言語として記録した場合は大変難しくなってしまう。上述の言語としての記録とは、使用者が通常用いる言語のことであり、例えば使用者が日本人であれば日本語活字として記録することを意味するものである。

一方、特許文献３では、音声入出力装置を作動させる場合、作動させるための起動用の言葉がマイクから入力された場合のみに反応して作動に入る技術思想が開示されている。同文献における音声入出力装置の動作は、受動的なものにとどまっている。また、起動用の言葉（ホットワード）を入力すれば誰でもその音声入出力装置を用いることができてしまうため、事前に使用者のホットワードオーディオフィンガープリントを記憶して置き、入力ホットワードと一致した場合にのみ起動するようにしてセキュリティを確保する技術が開示されている。しかし、入力されたホットワードと記憶されたホットワードオーディオフィンガープリントの一致・不一致を判定することは難しくより確実なセキュリティ確保手段が求められる。

特開２００１−９４３７０号公報特開２０１５−１８４５３０号公報特開２０１７−７６１１７号公報

本願は上述したような従来からの問題に着眼し、使用環境に存在する機械的な雑音や笑い声や警報音等の特定の音が存在する環境下においても利用者の音声を確実に認識できる音声入出力装置を提供することを課題とするものである。

また、利用者のストレスを少なくするための高速音声認識処理技術を体現する音声入出力装置を提供することも課題とするものである。更に、使用環境状態を積極的に探索して、最適な音声認識技術を用いることを体現する音声入出力装置を提供することも課題とするものである。なお、以後の説明においては、使用者が発する声やスピーカから発生される音や本発明の音声入出力周囲から発生される音を音声として総称することもある。

上記に加え、利用者の識別や性別、感情状態をも識別して音声認識確度を高めることができる音声入出力装置、利用者音声指示に対する反応を最適なものにする音声入出力装置、を提供することも課題とするものである。更に積極的な話し掛けやセキュリティ対策を備えた音声入出力装置を提供することも別の課題である。

本発明は、上述したような課題を解決するために、本願の音声入出力装置の態様は、使用環境を非可聴音を用いて計測し、計測した環境に適合するよう最適処理を行うとともに、話者識別、感情状態識別を行い積極的なマン・マシンインタフェース装置とする。このため、より具体的には、本願の一態様に係る音声入出力装置は、可聴音から非可聴音までを受信できる複数のマイクが立体的に配置された音声受付部と、単数あるいは複数のスピーカによって可聴音及び／もしくは非可聴音を発音する発音部と、前記マイクからの信号を処理制御する信号処理部と、前記信号処理部の処理結果に基づいた表示を行う表示部と、前記音受付部によって収音された音声情報を記録する記録部とを有することを特徴とする音声入出力装置として構成することができる。

さらに詳細には、本願の一態様に係る音声入出力装置は、可聴音から非可聴音までを受信できる複数のマイクが立体的に配置された音声受付部と、単数あるいは複数のスピーカによって可聴音及び／もしくは非可聴音を発音する発音部と、前記発音部から発音された音声を拡散する音声拡散部と、前記マイクからの信号を処理制御する信号処理部と、前記信号処理部の処理結果に基づいた表示を行う表示部と、前記音声受付部によって収音された音声情報を記録する記録部と、外部装置との情報授受を有線にて行うインタフェース部と、無線にて情報授受を行う通信部と、前記音受付部、前記発音部、前記音声拡散部、前記信号処理部、前記表示部、前記記録部、前記インタフェース部、前記通信部の各部へ電源を供給する電源部と、前記各部を収容する筐体とを備える構成とすることもできる。

上記において、可聴音とは一般的に２０Ｈｚ〜２０ＫＨｚであり、非可聴音はそれ以外の周波数の音声のことである。後述する音声入出力装置の周囲環境を捜索するための非可聴音としては発生と集音の容易さや分解能から３０ＫＨｚ近辺のいわゆる超音波を用いることが望ましい。

本願は上記態様における構成に加えてさらに、複数の発光表示器および／若しくは画像表示器から構成される表示部を有する態様としてもよい。この場合には、周囲の環境音や話者の識別あるいは話者の感情識別結果により上記発光表示あるいは画像表示器の表示の仕方を変化させて表示することが可能となる。

上記態様においては、前記非可聴音を間欠発音し、装置周辺からの反射音を前記複数のマイクで受信し、装置周辺の環境を２次元方位及び距離に関して把握するための音声到来情報を把握する音声到来情報把握機能を有するようにしてもよい。

また、上記態様においては、環境音を識別するための情報である環境音識別情報を取得することが可能な環境音識別機能をさらに有するようにしてもよい。

また、上記態様においては、話者を識別するための情報である話者識別情報を取得することが可能な話者識別機能をさらに有するようにしてもよい。

また、上記態様においては、話者の感情状態を識別するための情報である話者感情情報を取得することが可能な話者感情識別機能をさらに有するようにしてもよい。

また、上記態様においては、話者を識別するための情報である話者識別情報を取得することが可能な話者識別機能と、話者の感情状態を識別するための情報である話者感情情報を取得することが可能な話者感情識別機能とをさらに備え、前記マイクから入力された音情報を前記記録部に記録する場合、前記音情報に紐付けられる、音声到来情報、話者識別情報、話者感情情報、外部情報のうちいずれか１以上を略同時に記録するようにしてもよい。

また、上記態様においては、前記音到来情報、前記話者識別情報、前記話者感情情報、外部情報のうちの少なくともいずれか１つに基づいて前記複数の発光表示部の発光間隔、発光色、発光順序のうちいずれか１つ以上を変化できるようにしてもよい。

また、上記態様においては、装置全体を回転する機構及び振動機構をさらに有するようにしてもよい。

また、上記態様においては、撮像部をさらに備えるようにしてもよい。

また、上記態様においては、個人認証部をさらに備えるようにしてもよい。

また、上記態様においては、プロジェクタ部をさらに備えるようにしてもよい。

また、上記態様においては、赤外線通信部をさらに備えるようにしてもよい。

本願は上記態様における構成に加えてさらに、起動用の言葉による受動的起動に加えて、非可聴音発生やＴＶカメラによる監視により侵入者を検知し、音声入出力装置自身が能動的に起動し、合言葉の送受や、ＴＶカメラによる顔認識、指紋照合等の識別機能をさらに備えた態様としてもよい。この場合には、上述した話者識別に加えて個人識別をより確実に行いセキュリティを確保することが可能となる。

本願に係る技術思想には、例えば、顧客満足度向上のため、話者がどのような発話に対しどのような感情を抱いたかを記録し、クライアント側の音声入出力装置をコールセンターに利用していた場合にオペレータに注意喚起したり、管理者に報告したりすることが含まれる。また、クライアント側の音声入出力装置を会議に利用していた場合に出席者が感情的になった場合に落ち着かせるように休憩を入れたり、冷静になるような旨の音声を発話したりすることも含まれる。

総じて、本願によれば、使用環境を積極的に捜索して捜索結果に適合する最適音声認識技術を用いたり、使用する環境に存在する環境音を認識して特定方位に存在する雑音源からの入力を阻止したり、利用者の音声特性を識別したりする、といったことが可能となる。また、複数の話者の音声を記録する場合、どの話者の音声記録であるかを識別するのが可能となる。さらに、例えば所有者が帰宅したことを自動判別し、「お帰りなさい！」と話しかけるような能動的動作をすることが可能となる。

複数マイクを用いることにより、ビームフォーミング技術で話者の２次元方向が分かり、周辺雑音から分離して話者の言葉を確実に識別することができる。本方位識別情報と前記の話者識別情報、感情識別情報、外部情報を音声受信情報と共に記録しておけば、後の音声情報整理に大変有用である。

音声情報を言語に変換して記録する場合は、その音声を誰が発生したものであるかを識別することは大変重要であるが、単に言語に変換しただけの記録では上記の様に方位識別情報と話者識別情報と感情識別情報と外部情報を記録しておけば確実な話者識別が可能となる。

上記のように、非可聴音をパルス状に間欠発音し、反射音を上記複数マイクにて受信することで、周囲の反射体のような音環境確認が可能となり、音波伝搬のマルチパスの影響を最小にして音声識別の確度をより向上させることができる。さらに、音声入出力装置周辺の反射体が時間経過により移動する場合には侵入者ありと判断し、「いらっしゃい」あるいは「お帰りなさい」等のように従来にない能動的機能を達成することが可能となる。

また、周波数分析など音声の特徴分析を行うことにより話者の識別や話者の感情状態を知ることができ、その結果により表示部の表示を適正に、例えば興奮状態を鎮めるような表示を行うことができる。これはマン・マシンインタフェースにとって大変有用な効果である。

さらに本願によれば、例えば、話者がどのような発話に対しどのような感情を抱いたかを記録し、クライアント側の音声入出力装置をコールセンターに利用していた場合にオペレータに注意喚起したり、管理者に報告したりすることによって、顧客満足度を向上させることができる。また、クライアント側の音声入出力装置を会議に利用していた場合に出席者が感情的になった場合に落ち着かせるように休憩を入れたり、冷静になるような旨の音声を発話したりすることを通して、状況や雰囲気に適合した音声的環境を提供することができる。

起動用の言葉による能動的起動に加えて、非可聴音発生やＴＶカメラによる監視により侵入者を検知し、音声入出力装置自身が能動的に起動し、個人識別用の合言葉の送受や、ＴＶカメラによる顔認識、指紋照合等により、前記話者識別に加えて個人識別をより確実に行いセキュリティを確保するという効果が奏されることになる。

本発明の一実施形態に係る音声入出力装置の斜視図である。本発明の別の実施形態に係る音声入出力装置の斜視図である。本発明の一実施形態に係る音声入出力装置の内部構造概略図である。本発明の一実施形態に係る音声入出力装置に搭載されるプロジェクタの作用を概念的に説明するための斜視図である。本発明の一実施形態に係る音声入出力装置のマイク配置の一例を示す概念的斜視図である。本発明の一実施形態に係る音声入出力装置のマイク配置の別の一例を示す概念的斜視図である。本発明の一実施形態に係る実施形態に係る音声入出力装置のブロックダイヤグラム例である。

以下、図面を参照して本発明の実施形態を説明する。なお、以下では本発明の目的を達成するための説明に必要な範囲を模式的に示し、本発明の該当部分の説明に必要な範囲を主に説明することとし、説明を省略する箇所については公知技術によるものとする。

図１Ａおよび図１Ｂは、本発明の一実施形態に係る音声入出力装置の２つの実施態様を示した図である。図１Ａでは、音声が自由に出入りするパンチングメタル等からなる外装材１２を外装させた円筒形の筐体１０に、後述する電気回路等を全て組み込み、頂部に多色ＬＥＤのような発光表示部１１を付したシンプルなデザインに纏めた例を示している。なお、外装材１２は上述した材料に限られず、音声が自由に出入りできる素材であればいかなるものであっても適用可能であり、筐体１０の形状も円筒形に限らず、長方形、多角柱形等の様々な形状が考えられるが、それ等の全ては本願の技術思想に包摂される。

図１Ｂは、図１Ａに示された形態に、さらに画像表示部１３を組み込み、頂部に発光表示部１５を組み込み、筺体基部１６を回転可能とした例である。筺体基部１６にはモータ等による後述する回転機構３１が組み込まれており、筺体全体を回転させることができるため、話者の方向にＴＶカメラのような撮像部３３や画像表示部２４（図２Ａ参照）を向けることができる。さらに、回転機構に用いるモータを用いて筺体全体を振動（バイブレート）させ、音声入力に対するアクナレッジや発生する音声の強調等に用いることもできる。

同じく頂部あるいは頂部周辺に赤外線人感センサ及び指紋センサおよびＴＶカメラを設置してもよい。図１Ａ及び図１Ｂでは、個別の多色ＬＥＤを連続的に円形に配置しているが、角形に配置したりハート形にしたりと種々のバリエーションが考えられ、各バリエーションに見合った各個別ＬＥＤの点灯間隔、点灯色、点灯シーケンスを採用することが考えられる。また、点灯シーケンスも、音声到来方法を示したり、話者の感情や話者の識別職にしたりといろいろ考えられるが、それ等の全ては本願の技術思想に包摂される。

図２Ａは本発明の一実施形態に係る図１Ｂに示した音声入出力装置の内部構造図例であり、図２Ｂは、本発明の一実施形態に係る音声入出力装置に搭載されるプロジェクタの作用を概念的に説明するための斜視図である。図２Ａに示されるように、円筒形の筐体２０の頂部には発光表示部２１が配置され、頂部近くには略等間隔にマイク２２０が複数配置されてなる複数マイクユニット２２と、その下部に同様に略等間隔に複数のマイク２３０が配置されてなるマイクユニット２３が配置されている。マイクユニット２２とマイクユニット２３との間には画像表示部２４及び後述する信号処理部等の電気回路が収容されている。

図２Ｃは、本発明の一実施形態に係る音声入出力装置のマイク配置の一例を示す概念的斜視図であり、図２Ｄは、同マイク配置の別の一例を示す概念的斜視図である。図２Ｃでは、複数のマイクを水平面上に等間隔配置したマイクユニットに加えて、同様なマイクユニットを垂直軸上で立体的に分離配置することにより各マイクへの到来音源の２次元到来方位を計測することができる。マイクの配置位置は、図２Ｃの配置例に限らず、例えば図２Ｄのごとく円筒形筐体に内接する多角柱の角度位置に相当する位置に配置する等、種々の配置方法が考えられるが、それ等の全ては本願の技術思想に包摂される。

同じく、図２Ａでは複数のスピーカを下方に向けて同軸配置し、同軸下部に略円錐コーン状の音声拡散部３０を配置し、複数のスピーカ２５，２６から発生された音声を等方的に周囲に拡散している。もちろん、複数のスピーカ２５，２６と音声拡散部３０とを天地逆に配置してもよく、配置についてはその他いくつかのバリエーションも考えられるが、それ等の全ては本願の技術思想に包摂される。

図１Ｂ、図２Ａにて示される形態においては、上記構成により、話者の方向に画像表示部１３を向けることができ、より効果的なマン・マシンインタフェースとすることができる。図１Ａに示される形態においては、図示しない同様の構成により、複数マイクによって、話者の方位等により、発光表示部の表示により、話者の方向を表示したりすることができる。

後述するように、非可聴音の反射による侵入者の検出に加えて赤外線による人感センサを筐体１０の頂部等に装置してもよい。同じく頂部には個人識別を確実にするための指紋センサや、ＴＶカメラのような撮像装置を設置してもよい。さらに、図２Ｂに示されるように、プロジェクタ３４を装備することにより、音声出力に同期して説明図や関連画像を拡大投影することができる。これが適用され得る場面としては、例えば会議や旅行説明のため、室内のホワイトボードや壁やスクリーンに地図や議題を、本実施形態に係るプロジェクタ３４によって投影する態様などが考えられる。

図３は、本発明の一実施形態に係る図１Ｂに示した音声入出力装置のブロックダイヤグラムである。同図に示されるように、円筒形ケースの上下水平面に配置されたマイクユニット４０は、ＡＧＣ（ＡｕｔｏｍａｔｉｃＧａｉｎＣｏｎｔｒｏｌ「自動利得制御」：システムの入力レベルが変わっても出力レベルを目標値に合わせて一定に保つ制御を意味する。以下同じ。）やフォーミング等を行うマイク制御部４１を介し、μＣＰＵを主体とする信号処理部４２に入力される。またマイク制御部４１はインタフェース部５０を介して雑音除去やエコーキャンセルを行うことができる。

信号処理部４２においてはマイクからの音声信号に対して、周囲雑音除去などの識別精度向上のための前処理を施す。処理後の音声信号の到来方位情報を引き出す一方、通信部４３やインタフェース部５０から外部に送信し、クラウド処理等により話者識別処理や感情識別処理等の高度な情報処理を行い、上記到来方位情報と共に音声情報として記録部４７に記録する。同時に、上記情報処理の結果に適合した表示を表示部４６に表示することができる。

さらに、信号処理部４２においては上記音声到来方位情報により、特定方位に存在する雑音源からの音声情報は取り込まず、逆に特定方位からの音声情報のみを記録することも可能となる。

また、記録部４７は多層構成とし、記録すべき音声情報の到来方位や話者識別、感情識別等の関連情報を紐付けして音声情報とは別層に記録することにより、記録された音声情報の整理が大変容易になる。

信号処理部４２にはＷｉ−Ｆｉやブルートゥース（登録商標）などによって外部と無線交信するための通信部４３とハードワイヤにて外部機器と接続するためのインタフェース部５０とを有する。このため、外部マイクによって周囲雑音を受信して拡張ポートからかかる受信雑音を入力して周囲雑音の影響を低減したり、ＵＳＢポートにより外部機器と交信したりすることができる。

更に、音声命令によりインターネットを介してＴＶのチャンネル変更や照明装置のＯＮ／ＯＦＦを行っていた代わりに、赤外線通信部（ＩＲ送受信部）３５を装備することにより、音声入力命令によって直にＴＶや照明装置制御や外部機器を直接制御することが可能となる。

本発明によれば、単に入力音声信号を正しく認識するばかりでなく、能動的に周囲環境を認識できるため、本発明の音声入出力装置から話者に対して能動的に語りかけられるプッシュ型のマン・マシンインタフェースとして家庭電化製品や娯楽分野、更には各種産業分野に広く利用されることが期待される。

１０…筐体、１１…発光表示部、１２…外装材、１３…画像表示部、１４…回転部、１５…発光表示部、１６…筐体基部、２０…筐体、２１…発光表示部、２２…マイクユニット、２３…マイクユニット、２４…画像表示部、２５…スピーカ（可聴音発生部）、２６…スピーカ（非可聴音発生部）、２７…可聴音、２８…非可聴音、２９…土台、３０…音声拡散部、３１…回転機構、３２…個人認証部、３３…撮像部、３４…プロジェクタ、３５…赤外線通信部、４０…マイクユニット、４１…マイク制御部、４２…信号処理部、４３…通信部、４４…音声発生部、４５…非可聴音発生部、４６…表示部、４７…記録部、４８…回転駆動部、４９…電源部、５０…インタフェース部

Claims

可聴音から非可聴音までを受信できる複数のマイクが立体的に配置された音受付部と、
単数あるいは複数のスピーカによって可聴音及び／もしくは非可聴音を発音する発音部と、
前記マイクからの信号を外部からの指令に基づいて処理制御する信号処理部と、
外部装置との情報授受を有線にて行うインタフェース部と、
外部装置との情報授受を無線にて行う無線部と、
前記信号処理部の処理結果に基づいた表示を行う表示部と、
前記音受付部によって収音された音情報を記録する記録部と
を有することを特徴とする音声入出力装置。
前記表示部として、複数の個別発光器あるいは／及び画像表示器を備えることを特徴とする請求項１記載の音声入出力装置。
前記非可聴音を間欠発音し、装置周辺からの反射音を前記複数のマイクで受信し、装置周辺の環境を２次元方位及び距離に関して把握するための音声到来情報を把握する音声到来情報把握機能を有することを特徴とする請求項１または２記載の音声入出力装置。
音による環境情報を取得する音環境識別機能をさらに有することを特徴とする請求項１〜３のうちいずれか１項記載の音声入出力装置。
話者識別情報を取得する話者識別機能をさらに有することを特徴とする請求項１〜４のうちいずれか１項記載の音声入出力装置。
話者感情情報を取得する話者感情識別機能をさらに有することを特徴とする請求項１〜４のうちいずれか１項記載の音声入出力装置。
話者を識別するための情報である話者識別情報を取得することが可能な話者識別機能と、
話者の感情状態を識別するための情報である話者感情情報を取得することが可能な話者感情識別機能と
をさらに備え、
前記マイクから入力された音情報を前記記録部に記録する場合、前記音情報に紐付けられる、音到来情報、話者識別情報、話者感情情報、外部情報のうちいずれか１以上を略同時に記録することを特徴とする請求項３項記載の音声入出力装置。
前記音到来情報、前記話者識別情報、前記話者感情情報、前記外部情報のうちの少なくともいずれか１つに基づいて前記複数の発光表示部の発光間隔、発光色、発光順序のうちいずれか１つ以上を変化できることを特徴とする請求項７記載の音声入出力装置。
装置全体を回転する機構及び振動機構をさらに有することを特徴とする請求項１〜８のうちいずれか１項記載の音声入出力装置。
撮像部をさらに備えることを特徴とする請求項１〜９のうちいずれか１項記載の音声入出力装置。
個人認証部をさらに備えることを特徴とする請求項１〜１０のうちいずれか１項記載の音声入出力装置。
プロジェクタ部をさらに備えることを特徴とする請求項１〜１１のうちいずれか１項記載の音声入出力装置。
赤外線通信部をさらに備えることを特徴とする請求項１〜１２のうちいずれか１項記載の音声入出力装置。