JP2018185372A - Information processor, information processing program and building - Google Patents
Information processor, information processing program and building Download PDFInfo
- Publication number
- JP2018185372A JP2018185372A JP2017085533A JP2017085533A JP2018185372A JP 2018185372 A JP2018185372 A JP 2018185372A JP 2017085533 A JP2017085533 A JP 2017085533A JP 2017085533 A JP2017085533 A JP 2017085533A JP 2018185372 A JP2018185372 A JP 2018185372A
- Authority
- JP
- Japan
- Prior art keywords
- terminal
- information
- microphones
- sound
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】ユーザごとに発話した音を抽出すること。【解決手段】情報処理装置101は、各マイクロフォンM1,M2に入力される音に関する情報の記憶部110の各バッファB1,B2へのバッファリングを開始する。情報処理装置101は、端末Tへの操作に応じて端末Tから送信される情報に基づいて、端末Tのユーザが発話した期間Pと、マイクロフォンM1,M2から端末Tへの方向θとを特定する。情報処理装置101は、記憶部110に記憶されたマイクロフォンM1,M2ごとの音に関する情報のうちの期間PのマイクロフォンM1,M2ごとの音に関する情報と、方向θとに基づいて、端末Tのユーザが発話した音に関する情報を抽出する。情報処理装置101は、抽出したユーザが発話した音に関する情報を、端末Tの識別情報と対応付けて出力する。【選択図】図1To extract sounds uttered for each user. An information processing apparatus 101 starts buffering information about sounds input to microphones M1 and M2 into buffers B1 and B2 of a storage unit 110. The information processing apparatus 101 identifies the period P when the user of the terminal T speaks and the direction θ from the microphones M1 and M2 to the terminal T based on information transmitted from the terminal T in response to an operation on the terminal T. To do. The information processing apparatus 101 determines the user of the terminal T based on the information about the sound for each of the microphones M1, M2 in the period P among the information about the sound for each of the microphones M1, M2 stored in the storage unit 110 and the direction θ. Extract information about the sound uttered by. The information processing apparatus 101 outputs information related to the extracted sound uttered by the user in association with the identification information of the terminal T. [Selection] Figure 1
Description
本発明は、情報処理装置、情報処理プログラム、および建物に関する。 The present invention relates to an information processing apparatus, an information processing program, and a building.
近年、人工知能技術の発達や膨大な会話データベースの蓄積により、音声入力は身近で実用的なものとなってきている。また、ファーフィールド音声認識技術も実用レベルに達し、数メートルからの距離での音声認識が可能となってきている。 In recent years, speech input has become familiar and practical due to the development of artificial intelligence technology and the accumulation of a huge conversation database. In addition, far-field speech recognition technology has reached a practical level, and speech recognition at a distance from several meters has become possible.
関連する先行技術としては、例えば、発話者と発話言語の対応関係を保持しておき、発話者と発話言語の対応関係を記録して、現在対話を進める話者対を切り替えながら、対話の流れに応じて言語変換方向を決定するものがある。また、操作者により指定された指定区間と、入力された音声から検出された発声区間とが重複する部分が検出され、入力された音声に基づき話者が操作者以外の者であると判断された場合に、重複する部分が含まれる発声区間を処理区間として決定する技術がある。また、教室内の各生徒を被写体に含めた撮影を行い、オプティカルフローを用いて、発言者となるべき生徒が椅子から立ち上がる動作や口を動かす動作を検出することで撮影画像上における発言者の位置を特定し、発言者の顔部分の画像データを抽出する技術がある。 As related prior art, for example, the correspondence between the speaker and the spoken language is maintained, the correspondence between the speaker and the spoken language is recorded, and the flow of the dialogue is switched while switching the speaker pair that is currently proceeding with the dialogue. Depending on the language, the language conversion direction is determined. In addition, a portion where the designated section designated by the operator overlaps the utterance section detected from the input voice is detected, and the speaker is determined to be a person other than the operator based on the input voice. In such a case, there is a technique for determining an utterance section including an overlapping portion as a processing section. In addition, each student in the classroom is photographed and the optical flow is used to detect the movement of the student who should be the speaker from the chair and the movement of the mouth. There is a technique for specifying a position and extracting image data of a speaker's face.
しかしながら、従来技術では、複数人が発話する環境下において、音を収集するマイクロフォンを起点として発話する人の居る方向が異なるときに、ユーザが指定した区間での人ごとの音を抽出することが難しい場合がある。例えば、複数人が同じタイミングで発話した場合、人ごとに発話した音を区別して抽出することが難しい。 However, in the conventional technology, in an environment where a plurality of people speak, when the direction of the person who speaks from a microphone that collects sound is different, the sound for each person in the section specified by the user can be extracted. It can be difficult. For example, when multiple people utter at the same timing, it is difficult to distinguish and extract the uttered sound for each person.
一つの側面では、本発明は、ユーザごとに発話した音を抽出することを目的とする。 In one aspect, the present invention aims to extract sounds uttered for each user.
1つの実施態様では、複数のマイクロフォンと、前記複数のマイクロフォンに含まれるマイクロフォンごとに、前記マイクロフォンに入力される音に関する情報を記憶する記憶部と、端末への操作に応じて前記端末から送信される情報に基づいて、前記端末のユーザが発話した期間と、前記複数のマイクロフォンから前記端末への方向とを特定する特定部と、前記記憶部に記憶された前記期間の前記マイクロフォンごとの音に関する情報と、前記方向とに基づいて、前記ユーザが発話した音に関する情報を抽出する抽出部と、を有する情報処理装置が提供される。 In one embodiment, for each microphone included in the plurality of microphones, a storage unit that stores information related to sound input to the microphone, and a signal transmitted from the terminal in response to an operation on the terminal. And a specific unit that specifies a period during which the user of the terminal speaks, a direction from the plurality of microphones to the terminal, and a sound for each microphone of the period stored in the storage unit. An information processing apparatus is provided that includes an extraction unit that extracts information related to the sound uttered by the user based on the information and the direction.
本発明の一側面によれば、ユーザごとに発話した音を抽出することができる。 According to one aspect of the present invention, it is possible to extract a sound uttered for each user.
以下に図面を参照して、本発明にかかる情報処理装置、情報処理プログラム、および建物の実施の形態を詳細に説明する。 Exemplary embodiments of an information processing apparatus, an information processing program, and a building according to the present invention will be described below in detail with reference to the drawings.
(実施の形態)
図1は、実施の形態にかかる情報処理装置101の一実施例を示す説明図である。図1において、情報処理システム100は、情報処理装置101と、端末Tと、を含む。情報処理装置101は、複数のマイクロフォンM(例えば、マイクロフォンM1,M2)と記憶部110とを有し、端末Tのユーザが発話した音に関する情報を抽出するコンピュータである。
(Embodiment)
FIG. 1 is an explanatory diagram of an example of the
マイクロフォンMは、音声を電気信号に変換する装置である。複数のマイクロフォンMは、例えば、高さが略同一の位置に設置される。また、マイクロフォンM間の距離は、例えば、数センチ〜数十センチ程度である。また、マイクロフォンMの数は、2以上であればよく、3つでも4つでもよい。 The microphone M is a device that converts sound into an electrical signal. For example, the plurality of microphones M are installed at substantially the same height. The distance between the microphones M is, for example, about several centimeters to several tens of centimeters. The number of microphones M may be two or more, and may be three or four.
記憶部110は、複数のマイクロフォンMに含まれるマイクロフォンMごとに、マイクロフォンMに入力される音に関する情報を記憶する。より詳細に説明すると、記憶部110は、マイクロフォンMごとに、マイクロフォンMに入力される音に関する情報を記憶するバッファB(例えば、バッファB1,B2)を有する。各バッファBは、他のバッファBと独立して各マイクロフォンMに接続される。音に関する情報は、例えば、マイクロフォンMに入力される音の音圧や周波数の時系列変化を示す時系列データ(デジタル信号)である。
The
端末Tは、ユーザに操作されるコンピュータである。端末Tは、例えば、ユーザに装着される、あるいは、ユーザが操作容易な場所に設置される。具体的には、例えば、端末Tは、リング(指輪)型、リストバンド型、ペンダント型、バッチ型などのウェアラブル端末である。また、端末Tは、壁に設けられるスイッチ型の装置であってもよい。さらに、端末Tは、スマートフォン、タブレットなどの装置であってもよい。 The terminal T is a computer operated by a user. For example, the terminal T is attached to the user or installed in a place where the user can easily operate. Specifically, for example, the terminal T is a wearable terminal such as a ring (ring) type, a wristband type, a pendant type, or a batch type. The terminal T may be a switch type device provided on a wall. Furthermore, the terminal T may be a device such as a smartphone or a tablet.
なお、情報処理システム100では複数人が発話する環境を想定しているが、図1では、説明の都合上、ユーザを一人のみ表示している。また、複数人が発話する場合、端末Tは、発話するユーザごとに設けられる。
In the
ここで、複数人が発話する環境下において、複数人が同じタイミングで発話する場合がある。例えば、数人のグループごとに会話をしているときに、別々のグループの人が同時に発話することがある。このような場合、従来技術では、人ごとの音を区別して抽出することが難しく、ひいては、音声認識精度の低下を招くという問題がある。 Here, in an environment where a plurality of people speak, a plurality of people may speak at the same timing. For example, when talking in groups of several people, people from different groups may speak at the same time. In such a case, in the prior art, it is difficult to distinguish and extract sounds for each person, and as a result, there is a problem in that the voice recognition accuracy is lowered.
また、日常的に会話がなされる場所などで連続的に音声認識を行うと、話者が意図しない会話が認識されて、プライバシーやセキュリティの問題となることがある。さらに、話者が音声認識を意図していないと、不明確な文脈や認識不能な新語を使ってしまう傾向があり、音声認識精度を確保することが難しい。 In addition, if voice recognition is continuously performed in a place where conversations are made on a daily basis, conversations that are not intended by the speaker may be recognized, resulting in privacy and security problems. Furthermore, if the speaker does not intend to recognize speech, there is a tendency to use unclear contexts or unrecognizable new words, and it is difficult to ensure speech recognition accuracy.
そこで、本実施の形態では、複数人が発話する環境下であっても、ユーザごとに発話した音を抽出することができる情報処理方法について説明する。以下、情報処理装置101の処理例について説明する。
Therefore, in the present embodiment, an information processing method that can extract a sound uttered for each user even in an environment where a plurality of people speak is described. Hereinafter, a processing example of the
(1)情報処理装置101は、各マイクロフォンM1,M2に入力される音に関する情報の記憶部110の各バッファB1,B2へのバッファリングを開始する。なお、各バッファB1,B2にどれだけの時間長の情報を記憶するかは、任意に設計可能である。例えば、各バッファB1,B2には、数十秒程度の時間長の最新の情報が記憶される。
(1) The
(2)情報処理装置101は、端末Tへの操作に応じて端末Tから送信される情報に基づいて、端末Tのユーザが発話した期間Pと、マイクロフォンM1,M2から端末Tへの方向θとを特定する。ここで、情報処理システム100において、ユーザは、自分の発話区間を指定するために、端末Tを操作する。
(2) The
例えば、ユーザは、発話を開始するタイミングで、端末Tに対して第1の操作を行う。この場合、第1の操作が行われたことを示す第1の情報が、端末Tから送信される。また、ユーザは、発話を終了するタイミングで、端末Tに対して第2の操作を行う。この場合、第2の操作が行われたことを示す第2の情報が、端末Tから送信される。そして、情報処理装置101は、端末Tから送信される第1および第2の情報に基づいて、第1の操作が行われた時点t1から第2の操作が行われた時点t2までの期間を、ユーザが発話した期間Pとして特定する。
For example, the user performs the first operation on the terminal T at the timing of starting the utterance. In this case, the first information indicating that the first operation has been performed is transmitted from the terminal T. In addition, the user performs the second operation on the terminal T at the timing of ending the utterance. In this case, second information indicating that the second operation has been performed is transmitted from the terminal T. Then, the
なお、第1および第2の操作がそれぞれ行われた時点t1,t2を示す情報は、例えば、第1および第2の情報にそれぞれ含まれていてもよい。また、情報処理装置101は、例えば、第1および第2の情報をそれぞれ受信した時点を、第1および第2の操作が行われた時点t1,t2として特定してもよい(いわゆる、タイムスタンプ)。
Note that the information indicating the time points t1 and t2 when the first and second operations are performed may be included in the first and second information, respectively, for example. Further, for example, the
また、方向θは、マイクロフォンM1,M2から見た端末Tの方向である。方向θは、例えば、同一水平面(空間を上方から見た座標系)において、マイクロフォンM1,M2間の中点を通る軸と、マイクロフォンM1,M2間の中点から端末Tに向かうベクトルとのなす角度によって表現される。換言すれば、方向θは、マイクロフォンM1,M2から見た端末Tのユーザの方向に相当する。 The direction θ is the direction of the terminal T as viewed from the microphones M1 and M2. The direction θ is, for example, an axis passing through the midpoint between the microphones M1 and M2 and a vector from the midpoint between the microphones M1 and M2 toward the terminal T in the same horizontal plane (a coordinate system viewed from above). Expressed by angle. In other words, the direction θ corresponds to the direction of the user of the terminal T viewed from the microphones M1 and M2.
例えば、情報処理装置101は、端末Tの周辺に設置された複数の受信機(例えば、図2に示すビーコン受信機201)によって、端末Tから送信される無線信号(例えば、第1の情報)が受信された際の受信信号強度から端末Tの位置を推定する。そして、情報処理装置101は、推定した端末Tの位置とマイクロフォンM1,M2の設置位置とに基づいて、方向θを特定する。
For example, the
なお、端末Tへの操作に応じて端末Tから送信される情報に、例えば、端末Tの位置情報が含まれていてもよい。この場合、情報処理装置101は、例えば、第1の情報に含まれる位置情報から端末Tの位置を推定し、推定した端末Tの位置とマイクロフォンM1,M2の設置位置とから方向θを特定することができる。
Note that the information transmitted from the terminal T in response to an operation on the terminal T may include, for example, the position information of the terminal T. In this case, for example, the
(3)情報処理装置101は、記憶部110に記憶されたマイクロフォンM1,M2ごとの音に関する情報のうちの期間PのマイクロフォンM1,M2ごとの音に関する情報と、方向θとに基づいて、端末Tのユーザが発話した音に関する情報を抽出する。
(3) The
具体的には、例えば、情報処理装置101は、記憶部110の各バッファB1,B2から、期間Pの各マイクロフォンM1,M2の音に関する情報をそれぞれ読み出す。そして、情報処理装置101は、読み出した期間Pの各マイクロフォンM1,M2の音に関する情報に基づいて、方向θへのビームフォーム処理を行うことにより、ユーザが発話した音に関する情報を抽出する。
Specifically, for example, the
ここで、ビームフォーム処理とは、複数のマイクロフォンMを用いて指向性を制御する処理であり、例えば、特定の方向の感度を高めて、特定の方向から到来する信号を強調する処理である。ビームフォーム処理によれば、各バッファB1,B2に記憶された各マイクロフォンM1,M2の音に関する情報を用いて、方向θから到来する音声信号を強調して、端末Tのユーザが発話した音に関する情報を抽出することができる。 Here, the beamform process is a process of controlling directivity using a plurality of microphones M, for example, a process of enhancing the sensitivity in a specific direction and enhancing a signal coming from the specific direction. According to the beamform processing, the information about the sound of each microphone M1, M2 stored in each buffer B1, B2 is used to emphasize the sound signal coming from the direction θ, and the sound uttered by the user of the terminal T Information can be extracted.
なお、ビームフォーム処理についての詳細な説明は、周知技術のため省略する。ビームフォーム処理の具体的な処理内容については、例えば、「宝珠山治他、「知識の森」、電子情報通信学会、2012、2群−6編−2章」を参照することができる。 A detailed description of the beamform process is omitted because it is a well-known technique. As for the specific processing contents of the beamform processing, for example, “Hozayama Osamu et al.,“ Knowledge Forest ”, IEICE, 2012, Group 2, Chapter 6, Chapter-2 can be referred to.
(4)情報処理装置101は、抽出したユーザが発話した音に関する情報を、端末Tの識別情報と対応付けて出力する。端末Tの識別情報は、端末Tを一意に識別する情報であり、端末Tへの操作に応じて端末Tから送信される情報に含まれる。
(4) The
具体的には、例えば、情報処理装置101は、端末Tの識別情報と対応付けて、端末Tのユーザが発話した音に関する情報を、音声認識処理を実行する外部装置に送信することにしてもよい。この結果、外部装置において、端末Tのユーザが発話した音に関する情報に対する音声認識処理が実行される。
Specifically, for example, the
このように、情報処理装置101によれば、端末Tの方向θ(マイクロフォンM1,M2から見た端末Tのユーザの方向)から到来した音声信号を強調して、端末Tのユーザが発話した音を抽出することができる。具体的には、例えば、情報処理装置101は、各バッファB1,B2に記憶されたマイクロフォンM1,M2ごとの音に関する情報を用いて、各方向θから到来した音声信号を強調した音情報をそれぞれ生成することができる。また、端末Tの識別情報から、端末Tのユーザを特定可能となる。このため、音を収集するマイクロフォンを起点として発話する人の居る方向が異なるときに、ユーザが指定した区間での人ごとの音を抽出することができる。例えば、複数人が同じタイミングで発話した場合であっても、ユーザごとに発話した音を精度良く抽出することができる。また、ユーザが発話区間を指定可能なため、ユーザが意図しない会話が認識されて流出するのを防ぐことができる。さらに、ユーザが発話区間を指定することで、ユーザ自身が認識して欲しい語彙の明確化が可能となり、ひいては、音声認識精度の低下を防ぐことができる。
In this way, according to the
(情報処理システム100のシステム構成例)
つぎに、情報処理システム100のシステム構成例について説明する。
(System configuration example of the information processing system 100)
Next, a system configuration example of the
図2は、情報処理システム100のシステム構成例を示す説明図である。図2において、情報処理システム100は、情報処理装置101と、複数のビーコン受信機201と、端末T1〜Tnと、を含む。情報処理システム100において、情報処理装置101および複数のビーコン受信機201は、有線または無線のネットワーク210を介して接続される。ネットワーク210は、例えば、LAN、WAN(Wide Area Network)、インターネットなどを含む。
FIG. 2 is an explanatory diagram illustrating a system configuration example of the
以下の説明では、端末T1〜Tnのうちの任意の端末を「端末Ti」と表記する場合がある(i=1,2,…,n)。図1に示した端末Tは、例えば、端末Tiに対応する。 In the following description, an arbitrary terminal among the terminals T1 to Tn may be expressed as “terminal Ti” (i = 1, 2,..., N). The terminal T illustrated in FIG. 1 corresponds to the terminal Ti, for example.
情報処理装置101は、発話区間テーブル220を有し、端末Tiのユーザが発話した音に関する情報を抽出する。なお、発話区間テーブル220の記憶内容については、図5を用いて後述する。端末Tiは、例えば、情報処理システム100のユーザにより使用されるリング(指輪)型のウェアラブル端末である。また、端末Tiは、ユーザが操作容易な場所に設置されることにしてもよい。
The
ビーコン受信機201は、端末Tiから送信されるビーコン信号を受信するコンピュータである。複数のビーコン受信機201は、空間R内の異なる位置にそれぞれ設置される。空間Rは、端末Tiのユーザが存在する空間である。例えば、空間Rは、複数人で会話する際に利用される建物、部屋、ブースなどである。建物は、床と、床から立ち上がると共に室内(空間R)を囲む壁と、を有する。建物の壁には、マイクロフォンM1,M2が備えられている。
The
また、ビーコン受信機201は、端末Tiから受信したビーコン信号の受信信号強度を測定し、測定した受信信号強度を、端末Tiから受信したビーコン信号に付加して情報処理装置101に送信する。受信信号強度は、ビーコン受信機201が受信したビーコン信号の強度を示す指標値である。受信信号強度としては、例えば、RSSI(Received Signal Strength Indicator)値を用いることができる。RSSI値の単位は、例えば、[dBm]である。
The
(情報処理装置101のハードウェア構成例)
図3は、情報処理装置101のハードウェア構成例を示す説明図である。図3において、情報処理装置101は、CPU(Central Processing Unit)301と、メモリ302と、I/F(Interface)303と、ビーコン受信部304と、ディスクドライブ305と、ディスク306と、収音部307と、を有する。また、各構成部は、バス300によってそれぞれ接続される。
(Hardware configuration example of information processing apparatus 101)
FIG. 3 is an explanatory diagram illustrating a hardware configuration example of the
ここで、CPU301は、情報処理装置101の全体の制御を司る。メモリ302は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)およびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMやROMが各種プログラムを記憶し、RAMがCPU301のワークエリアとして使用される。メモリ302に記憶されるプログラムは、CPU301にロードされることで、コーディングされている処理をCPU301に実行させる。
Here, the
I/F303は、通信回線を通じてネットワーク210(図2参照)に接続され、ネットワーク210を介して他のコンピュータ(例えば、図2に示したビーコン受信機201)に接続される。そして、I/F303は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。I/F303には、例えば、モデム、NIC(Network Interface Card)などを採用することができる。
The I /
ビーコン受信部304は、ビーコン信号(無線信号)を受信する。具体的には、例えば、ビーコン受信部304は、ビーコン信号を受信するアンテナと、アンテナによって受信されたアナログ信号をデジタル信号に変換してバス300に出力する信号処理部と、を有する。
The
ディスクドライブ305は、CPU301の制御に従ってディスク306に対するデータのリード/ライトを制御する。ディスク306は、ディスクドライブ305の制御で書き込まれたデータを記憶する。ディスク306としては、例えば、磁気ディスク、光ディスクなどが挙げられる。
The
収音部307は、マイクロフォンM1,M2と、バッファB1,B2と、を含む。マイクロフォンM1,M2は、音声を電気信号に変換する装置である。マイクロフォンM1,M2は、空間R内の高さが略同一の位置に設置される。バッファB1は、マイクロフォンM1に接続され、マイクロフォンM1に入力される音に関する情報を記憶する。バッファB2は、マイクロフォンM2に接続され、マイクロフォンM2に入力される音に関する情報を記憶する。
The
なお、情報処理装置101は、上述した構成部のうち、例えば、ディスクドライブ305やディスク306を有さないことにしてもよい。また、情報処理装置101は、上述した構成部のほかに、入力装置(例えば、キーボード、マウス、入力パッドなど)、出力装置(例えば、ディスプレイ、スピーカなど)、SSD(Solid State Drive)などを有することにしてもよい。
The
(端末Tiのハードウェア構成例)
図4は、端末Tiのハードウェア構成例を示すブロック図である。図4において、端末Tiは、CPU401と、メモリ402と、操作ボタン403と、LED(Light Emitting Diode)ランプ404と、ビーコン送信部405と、を有する。また、各構成部は、バス400によってそれぞれ接続される。
(Example of hardware configuration of terminal Ti)
FIG. 4 is a block diagram illustrating a hardware configuration example of the terminal Ti. In FIG. 4, the terminal Ti includes a
CPU401は、端末Tiの全体の制御を司る。メモリ402は、例えば、ROM、RAMなどを有する。具体的には、例えば、ROMが各種プログラムを記憶し、RAMがCPU401のワークエリアとして使用される。メモリ402に記憶されるプログラムは、CPU401にロードされることで、コーディングされている処理をCPU401に実行させる。
The
操作ボタン403は、端末Tiのユーザの発話区間を指定するために操作される入力装置である。具体的には、例えば、端末Tiのユーザは、発話を開始するタイミングで、操作ボタン403をONにする操作を行い、発話を終了するタイミングで、操作ボタン403をOFFにする操作を行う。
The
より詳細に説明すると、例えば、端末Tiのユーザは、発話を開始するタイミングで、操作ボタン403を指で押下し(ON操作)、発話が終了するまで操作ボタン403を押下し続ける。そして、端末Tiのユーザは、発話を終了するタイミングで、操作ボタン403から指を離す(OFF操作)。
More specifically, for example, the user of the terminal Ti presses the
LEDランプ404は、操作ボタン403の操作に応じて点灯するランプである。具体的には、例えば、LEDランプ404は、操作ボタン403がONになると点灯し、操作ボタン403がOFFになると消灯する。LEDランプ404によれば、端末Tiのユーザは、操作ボタン403のON/OFFの状態を確認することができる。
The
ビーコン送信部405は、操作ボタン403の操作に応じて、ビーコン信号(無線信号)を送信する。具体的には、例えば、ビーコン送信部405は、バス400に出力されたデジタル信号をアナログ信号に変換してアンテナに出力する信号処理部と、信号処理部から出力された無線信号を送信するアンテナと、を有する。ビーコン送信部405は、例えば、BLE(Bluetooth Low Energy)通信により、ビーコン信号を送信する。Bluetoothは、登録商標である。
The
より詳細に説明すると、例えば、ビーコン送信部405は、操作ボタン403がONになると、端末Tiの端末ID「Ti」と、操作種別「ON」と、を含むビーコン信号bsを送信する。操作種別「ON」は、操作ボタン403をONにする操作を示す。また、ビーコン送信部405は、操作ボタン403がOFFになると、端末Tiの端末ID「Ti」と、操作種別「OFF」と、を含むビーコン信号bsを送信する。操作種別「OFF」は、操作ボタン403をOFFにする操作を示す。ビーコン信号bsには、例えば、操作ボタン403が操作された日時を示す情報が含まれていてもよい。
More specifically, for example, when the
なお、端末Tiは、例えば、一次電池または二次電池により駆動する。また、端末Tiは、上述した構成部のほかに、例えば、通信回線を通じてネットワーク210(図2参照)に接続される公衆網I/Fや、GPS(Global Positioning System)ユニットなどを有することにしてもよい。端末TiがGPSユニットを有する場合、ビーコン送信部405は、GPSユニットにより出力される位置情報を含むビーコン信号bsを送信することにしてもよい。
The terminal Ti is driven by, for example, a primary battery or a secondary battery. In addition to the components described above, the terminal Ti includes, for example, a public network I / F connected to the network 210 (see FIG. 2) through a communication line, a GPS (Global Positioning System) unit, and the like. Also good. When the terminal Ti has a GPS unit, the
(発話区間テーブル220の記憶内容)
つぎに、情報処理装置101が有する発話区間テーブル220の記憶内容について説明する。発話区間テーブル220は、例えば、図3に示したメモリ302、ディスク306などの記憶装置により実現される。
(Stored contents of the utterance section table 220)
Next, the contents stored in the utterance section table 220 of the
図5は、発話区間テーブル220の記憶内容の一例を示す説明図である。図5において、発話区間テーブル220は、端末ID、方向、ON時刻およびOFF時刻のフィールドを有し、各フィールドに情報を設定することで、発話区間情報(例えば、発話区間情報500−1,500−2)をレコードとして記憶する。 FIG. 5 is an explanatory diagram showing an example of the contents stored in the utterance section table 220. In FIG. 5, the utterance section table 220 includes fields of terminal ID, direction, ON time, and OFF time. By setting information in each field, utterance section information (for example, utterance section information 500-1, 500). -2) is stored as a record.
端末IDは、端末Tiを一意に識別する識別情報である。端末IDとしては、例えば、端末TiのMAC(Media Access Control)アドレスを用いることができる。なお、端末IDフィールドには、例えば、情報処理装置101とペアリングされた端末Tiの端末IDが予め設定されることにしてもよい。
The terminal ID is identification information that uniquely identifies the terminal Ti. As the terminal ID, for example, the MAC (Media Access Control) address of the terminal Ti can be used. In the terminal ID field, for example, the terminal ID of the terminal Ti paired with the
方向は、マイクロフォンM1,M2から見た端末Tiの方向である。方向は、例えば、同一水平面(空間Rを上方から見た座標系)において、マイクロフォンM1,M2間の中点を通る軸(例えば、マイクロフォンM1,M2間を結ぶ線分に直交する軸)と、マイクロフォンM1,M2間の中点から端末Tiに向かうベクトルとのなす角度θによって表現される。 The direction is the direction of the terminal Ti viewed from the microphones M1 and M2. The direction is, for example, an axis passing through the midpoint between the microphones M1 and M2 (for example, an axis orthogonal to a line segment connecting the microphones M1 and M2) on the same horizontal plane (coordinate system when the space R is viewed from above), This is expressed by an angle θ formed by a vector from the midpoint between the microphones M1 and M2 toward the terminal Ti.
ON時刻は、端末Tiの操作ボタン403(図4参照)をONにする操作が行われた日時を示す。OFF時刻は、端末Tiの操作ボタン403をOFFにする操作が行われた日時を示す。例えば、発話区間情報500−1は、端末ID「T1」、方向「θ1」、ON時刻「t11」およびOFF時刻「t12」を示す。
The ON time indicates the date and time when the operation of turning on the operation button 403 (see FIG. 4) of the terminal Ti is performed. The OFF time indicates the date and time when the operation for turning off the
(情報処理装置101の機能的構成例)
図6は、情報処理装置101の機能的構成例を示すブロック図である。図5において、情報処理装置101は、取得部601と、特定部602と、抽出部603と、音声認識部604と、出力部605と、を含む構成である。取得部601〜出力部605は制御部となる機能であり、具体的には、例えば、図3に示したメモリ302、ディスク306などの記憶装置に記憶されたプログラムをCPU301に実行させることにより、または、I/F303、ビーコン受信部304により、その機能を実現する。各機能部の処理結果は、例えば、メモリ302、ディスク306の記憶装置に記憶される。
(Functional configuration example of the information processing apparatus 101)
FIG. 6 is a block diagram illustrating a functional configuration example of the
取得部601は、端末Tiへの操作に応じて端末Tiから送信される情報を取得する。ここで、端末Tiから送信される情報は、例えば、端末Tiの操作ボタン403の操作に応じて端末Tiのビーコン送信部405から送信されるビーコン信号bsである。ビーコン信号bsには、例えば、端末Tiの端末IDと、操作種別とが含まれる。操作種別は、ビーコン信号bsの送信の契機となった操作の種別を示す情報である。操作種別としては、例えば、操作種別「ON」と操作種別「OFF」とがある。操作種別「ON」は、操作ボタン403をONにする操作を示す。操作種別「OFF」は、操作ボタン403をOFFにする操作を示す。
The
具体的には、例えば、取得部601は、図3に示したビーコン受信部304により、端末Tiから送信されるビーコン信号bsを受信することにより、ビーコン信号bsを取得することにしてもよい。また、取得部601は、図3に示したI/F303により、端末Tiから送信されるビーコン信号bsをビーコン受信機201から受信することにより、ビーコン信号bsを取得することにしてもよい。ビーコン受信機201から受信されるビーコン信号bsには、ビーコン受信機201において測定されたビーコン信号bsの受信信号強度(例えば、RSSI値)が含まれる。
Specifically, for example, the
特定部602は、取得部601によって取得される端末Tiへの操作に応じて端末Tiから送信される情報に基づいて、端末Tiのユーザが発話した期間P(以下、「発話区間P」と称する)を特定する。具体的には、例えば、特定部602は、操作種別「ON」を含むビーコン信号bsが取得されたことに応じて、ビーコン信号bsに含まれる端末IDと対応付けて、ビーコン信号bsが取得(受信)された時刻をON時刻として、発話区間テーブル220(図5参照)に登録する。
Based on information transmitted from the terminal Ti in response to an operation on the terminal Ti acquired by the acquiring
例えば、端末ID「T1」と操作種別「ON」とを含むビーコン信号bsが取得された場合、特定部602は、端末ID「T1」と対応付けて、ビーコン信号bsが受信された時刻t11をON時刻として、発話区間テーブル220に登録する。これにより、発話区間情報500−1が新たなレコードとして発話区間テーブル220に登録される。この時点では、発話区間情報500−1の方向およびOFF時刻フィールドは「Null」である。
For example, when the beacon signal bs including the terminal ID “T1” and the operation type “ON” is acquired, the specifying
つぎに、特定部602は、操作種別「OFF」を含むビーコン信号bsが取得されたことに応じて、ビーコン信号bsに含まれる端末IDに対応する発話区間情報のOFF時刻として、ビーコン信号bsが取得(受信)された時刻を設定する。例えば、端末ID「T1」と操作種別「OFF」とを含むビーコン信号bsが取得された場合、特定部602は、端末ID「T1」に対応する発話区間情報500−1のOFF時刻フィールドに、ビーコン信号bsが受信された時刻t12を設定する。
Next, in response to the acquisition of the beacon signal bs including the operation type “OFF”, the identifying
これにより、特定部602は、発話区間情報500−1のON時刻t11からOFF時刻t12までの期間を、端末T1のユーザが発話した発話区間Pとして特定することができる。
Accordingly, the identifying
なお、情報処理装置101は、ビーコン受信機201を経由してビーコン信号bsを受信する場合、複数のビーコン受信機201からほぼ同時に、同一の端末IDおよび操作種別を含むビーコン信号bsを受信することになる。この場合、特定部602は、例えば、最初に取得されたビーコン信号bsに応じて、発話区間テーブル220への登録を行うことにしてもよい。
When the
また、特定部602は、取得部601によって取得される端末Tiへの操作に応じて端末Tiから送信される情報に基づいて、マイクロフォンM1,M2から端末Tiへの方向θを特定する。具体的には、例えば、特定部602は、複数のビーコン受信機201から受信される端末Tiの端末IDを含むビーコン信号bsに基づいて、端末Tiの位置を推定する。
Further, the specifying
より具体的には、例えば、特定部602は、ビーコン受信機201からビーコン信号bsが受信されると、当該ビーコン信号bsと同一の端末IDおよび操作種別を含むビーコン信号bsを、他のビーコン受信機201から受信するのを一定時間待つ。一定時間は、例えば、1秒程度である。つぎに、特定部602は、各ビーコン受信機201から受信されたビーコン信号bsのRSSI値と、各ビーコン受信機201の設置位置とに基づいて、空間Rにおける端末Tiの位置を推定する。各ビーコン受信機201の設置位置を示す情報は、例えば、メモリ302、ディスク306などの記憶装置に記憶されている。
More specifically, for example, when the beacon signal bs is received from the
なお、端末Tiのビーコン信号を各ビーコン受信機201が受信したときの受信信号強度(RSSI値)から端末Tiの位置を推定する技術は周知技術のため、ここでは説明を省略する。また、端末Tiの位置をビーコン信号の受信信号強度から推定する技術として、既存の如何なる技術を用いることにしてもよい。また、端末TiがGPSユニットを有する場合、情報処理装置101は、端末TiからGPSユニットにより出力される位置情報を受信することにしてもよい。この場合、特定部602は、端末Tiから受信される位置情報をもとに端末Tiの位置を推定することにしてもよい。
In addition, since the technique which estimates the position of terminal Ti from the received signal strength (RSSI value) when each
そして、特定部602は、推定した端末Tiの位置と、マイクロフォンM1,M2(収音部307)の設置位置とに基づいて、マイクロフォンM1,M2から端末Tiへの方向θを特定する。方向θは、例えば、同一水平面において、マイクロフォンM1,M2間を結ぶ線分の中点を通る当該線分に直交する軸と、マイクロフォンM1,M2間の中点から端末Tiに向かうベクトルとのなす角度に相当する。すなわち、方向θは、マイクロフォンM1,M2から見た端末Tiのユーザの方向に相当する。マイクロフォンM1,M2(収音部307)の設置位置を示す情報は、例えば、メモリ302、ディスク306などの記憶装置に記憶されている。
Then, the specifying
特定された方向θは、ビーコン信号bsに含まれる端末IDと対応付けて、発話区間テーブル220(図5参照)に登録される。例えば、マイクロフォンM1,M2から端末T1への方向θ1が特定された場合、特定部602は、端末ID「T1」に対応する発話区間情報500−1の方向フィールドに、方向θ1を設定する。
The identified direction θ is registered in the utterance section table 220 (see FIG. 5) in association with the terminal ID included in the beacon signal bs. For example, when the direction θ1 from the microphones M1 and M2 to the terminal T1 is specified, the specifying
抽出部603は、バッファB1,B2に記憶されたマイクロフォンM1,M2ごとの音に関する情報のうちの発話区間PのマイクロフォンM1,M2ごとの音に関する情報と、方向θとに基づいて、端末Tiのユーザが発話した音に関する情報を抽出する。ここで、音に関する情報は、例えば、音圧の時系列変化を示す時系列データ(デジタル信号)である。
Based on the information about the sound for each of the microphones M1, M2 in the utterance section P among the information about the sound for each of the microphones M1, M2 stored in the buffers B1, B2, the
具体的には、例えば、まず、抽出部603は、発話区間テーブル220を参照して、端末Tiの発話区間Pを特定する。つぎに、抽出部603は、各バッファB1,B2から、特定した発話区間PのマイクロフォンM1,M2ごとの音に関する情報を読み出す。つぎに、抽出部603は、発話区間テーブル220を参照して、端末Tiの方向θを特定する。そして、抽出部603は、読み出した発話区間Pの各マイクロフォンM1,M2の音に関する情報に基づいて、特定した方向θへのビームフォーム処理を行うことにより、端末Tiのユーザが発話した音に関する情報を抽出(生成)する。
Specifically, for example, first, the
一例として、図5に示した発話区間テーブル220内の発話区間情報500−1を例に挙げると、まず、抽出部603は、発話区間情報500−1を参照して、端末T1の発話区間P(t11〜t12)を特定する。つぎに、抽出部603は、各バッファB1,B2から、特定した発話区間PのマイクロフォンM1,M2ごとの音に関する情報を読み出す。つぎに、抽出部603は、発話区間テーブル220を参照して、端末T1の方向θ1を特定する。そして、抽出部603は、発話区間Pの各マイクロフォンM1,M2の音に関する情報に基づいて、方向θ1へのビームフォーム処理を行うことにより、端末T1のユーザが発話した音に関する情報を抽出する。
As an example, taking the utterance section information 500-1 in the utterance section table 220 shown in FIG. 5 as an example, the
なお、情報処理装置101は、抽出部603によって抽出された端末T1のユーザが発話した音に関する情報に対してノイズキャンセリング処理を施すことにしてもよい。ノイズキャンセリング処理は、例えば、環境ノイズや反射音の影響を除去する処理である。
Note that the
出力部605は、抽出部603によって抽出された端末Tiのユーザが発話した音に関する情報を、端末Tiの端末IDと対応付けて出力する。出力部605の出力形式としては、例えば、メモリ302、ディスク306などの記憶装置への記憶、I/F303による外部装置への送信、不図示のディスプレイへの表示などがある。
The
具体的には、例えば、出力部605は、端末Tiの端末IDと対応付けて、端末Tiのユーザが発話した音に関する情報を、音声認識処理を実行する外部装置に送信することにしてもよい。この結果、外部装置において、端末Tiのユーザが発話した音に関する情報に対する音声認識処理が実行される。
Specifically, for example, the
音声認識部604は、抽出部603によって抽出された端末Tiのユーザが発話した音に関する情報を音声認識する。ここで、音声認識とは、例えば、ユーザが発話した音に関する情報を文字列に変換する処理である。なお、音声認識技術として、既存の如何なる技術を用いることにしてもよい。
The
具体的には、例えば、音声認識部604は、音響モデル、言語モデル、単語辞書等を用いて、端末Tiのユーザが発話した音に関する情報を音声認識する。音響モデルは、認識対象の音素がどのような周波数特性を持っているかを表したものである。言語モデルは、音素の並び方に関する制約を表したものである。
Specifically, for example, the
また、出力部605は、音声認識部604によって音声認識された認識結果を、端末Tiの端末IDと対応付けて出力する。具体的には、例えば、出力部605は、端末Tiの端末IDと対応付けて、音声認識部604によって音声認識された認識結果をディスク306に蓄積することにしてもよい。また、出力部605は、音声認識部604によって音声認識された認識結果を、音声入力可能な電子機器に送信することにしてもよい。
The
なお、情報処理装置101は、音声認識部604を有さないことにしてもよい。また、端末Tiは、操作ボタン403の操作に応じて、不図示の公衆網I/Fにより、端末Tiの端末IDと操作種別とを含むイベント情報を情報処理装置101に送信することにしてもよい。この場合、特定部602は、端末Tiへの操作に応じて端末Tiから送信されるイベント情報に基づいて、端末Tiのユーザが発話した発話区間Pを特定することにしてもよい。また、情報処理装置101の機能部は、例えば、ハードウェアにより実現されてもよい。具体的には、例えば、機能部は、論理積回路であるAND、否定論理回路であるINVERTER、論理和回路であるOR、論理和否定回路であるNORや、ラッチ回路であるFF(Flip Flop)などの素子によって形成されてもよい。
Note that the
(端末Tiのユーザが発話した音に関する情報の抽出例)
つぎに、図7および図8を用いて、端末Tiのユーザが発話した音に関する情報の抽出例について説明する。
(Extraction example of information about sound uttered by user of terminal Ti)
Next, an example of extracting information related to the sound uttered by the user of the terminal Ti will be described with reference to FIGS.
図7は、複数のマイクロフォンMとユーザとの位置関係の一例を示す説明図(その1)である。図7において、空間R内に端末T1のユーザAと、端末T2のユーザBとが存在する。空間Rは、例えば、会議室やミーティングルームなどである。また、空間R内のそれぞれ異なる位置に4つのビーコン受信機201が設置され、空間Rの右側にマイクロフォンM1,M2が設置されている。
FIG. 7 is an explanatory diagram (part 1) illustrating an example of a positional relationship between a plurality of microphones M and a user. In FIG. 7, a user A of the terminal T1 and a user B of the terminal T2 exist in the space R. The space R is, for example, a conference room or a meeting room. Four
ここでは、端末T1のユーザAと端末T2のユーザBとが発話した場合を想定し、マイクロフォンM1,M2にそれぞれ入力された音に関する情報について説明する。また、マイクロフォンM1,M2から端末T1への方向θを「方向θ1」とし、マイクロフォンM1,M2から端末T2への方向θを「方向θ2」とする。すなわち、方向θ1は、マイクロフォンM1,M2から見た端末T1のユーザAの方向に相当する。また、方向θ2は、マイクロフォンM1,M2から見た端末T2のユーザBの方向に相当する。ただし、θ1は、基準軸(図7中、点線)から時計回りの角度を示し、θ2は、基準軸から反時計回りの角度を示す。 Here, assuming that the user A of the terminal T1 and the user B of the terminal T2 speak, information on sounds input to the microphones M1 and M2 will be described. Also, the direction θ from the microphones M1, M2 to the terminal T1 is “direction θ1,” and the direction θ from the microphones M1, M2 to the terminal T2 is “direction θ2.” That is, the direction θ1 corresponds to the direction of the user A of the terminal T1 viewed from the microphones M1 and M2. The direction θ2 corresponds to the direction of the user B of the terminal T2 as viewed from the microphones M1 and M2. However, θ1 indicates a clockwise angle from the reference axis (dotted line in FIG. 7), and θ2 indicates a counterclockwise angle from the reference axis.
図8は、バッファB1,B2に記憶された音に関する情報の具体例を示す説明図である。図8において、音情報810は、バッファB1に記憶された、マイクロフォンM1に入力された音に関する情報である。音情報820は、バッファB2に記憶された、マイクロフォンM2に入力された音に関する情報である。
FIG. 8 is an explanatory diagram showing a specific example of information related to sound stored in the buffers B1 and B2. In FIG. 8,
ここでは、ユーザAにより、時刻t11に端末T1の操作ボタン403をONにする操作が行われ、時刻t12に端末T1の操作ボタン403をOFFにする操作が行われた場合を想定する。また、ユーザBにより、時刻t21に端末T2の操作ボタン403をONにする操作が行われ、時刻t22に端末T2の操作ボタン403をOFFにする操作が行われた場合を想定する。
Here, the user A, the operation of the
この場合、抽出部603は、各バッファB1,B2から、時刻t11から時刻t12までのマイクロフォンM1,M2ごとの音に関する情報を読み出す(図8中、点線枠830)。そして、抽出部603は、読み出した各マイクロフォンM1,M2の音に関する情報に基づいて、方向θ1(ユーザAの方向)へのビームフォーム処理を行う。これにより、方向θ1から到来した信号を強調して、端末T1のユーザAが発話した音に関する情報を抽出することができる。
In this case, the
また、抽出部603は、各バッファB1,B2から、時刻t21から時刻t22までのマイクロフォンM1,M2ごとの音に関する情報を読み出す(図8中、点線枠840)。そして、抽出部603は、読み出した各マイクロフォンM1,M2の音に関する情報に基づいて、方向θ2(ユーザBの方向)へのビームフォーム処理を行う。これにより、方向θ2から到来した信号を強調して、端末T2のユーザBが発話した音に関する情報を抽出することができる。
The
ここでは、ユーザAの発話区間P(時刻t11から時刻t12)とユーザBの発話区間P(時刻t21から時刻t22)とが一部重なっている。すなわち、ユーザAとユーザBとが同時に会話した区間(点線枠830と点線枠840とが重なった部分)が存在する。このような場合であっても、情報処理装置101は、各バッファB1,B2に記憶された音に関する情報を用いて、各ユーザA,Bの方向θ1,θ2から到来した音声信号を強調した音情報をそれぞれ生成して、各ユーザA,Bが発話した音を抽出することができる。
Here, the utterance section P of user A (from time t 11 to time t 12 ) and the utterance section P of user B (from time t 21 to time t 22 ) partially overlap. That is, there is a section where the user A and the user B talk at the same time (a portion where the
(高さ方向の音源認識)
つぎに、図9を用いて、高さ方向の音源認識について説明する。音声認識に用いられる音響モデルには、大人用の音響モデルや子供用の音響モデルなど、音源となるユーザの成長度合いに応じたモデルが存在する。したがって、例えば、端末Tiのユーザが大人であるか子供であるかを判別できれば、音声認識にどの音響モデルを用いるのがよいのかを判断することが可能となる。
(Sound source recognition in the height direction)
Next, sound source recognition in the height direction will be described with reference to FIG. As acoustic models used for speech recognition, there are models according to the degree of growth of users as sound sources, such as an acoustic model for adults and an acoustic model for children. Therefore, for example, if it can be determined whether the user of the terminal Ti is an adult or a child, it is possible to determine which acoustic model should be used for speech recognition.
そこで、情報処理装置101は、上述した複数のマイクロフォンM(例えば、マイクロフォンM1,M2)とは別に、空間R内の高さが異なる位置に設置される複数のマイクロフォンM’を有することにしてもよい。複数のマイクロフォンM’それぞれに入力される音に関する情報は、例えば、メモリ302、ディスク306に記憶される。ただし、複数のマイクロフォンMのうちのいずれかのマイクロフォンMを、マイクロフォンM’の一つとして用いることにしてもよい。
Therefore, the
図9は、高さ方向の音源認識の一例を示す説明図である。図9において、空間R内の壁901に、高さが異なるようにマイクロフォンM’a,M’bが設置されている。マイクロフォンM’a,M’b間の距離は、例えば、数センチメートル〜数十センチメートル程度である。
FIG. 9 is an explanatory diagram illustrating an example of sound source recognition in the height direction. In FIG. 9, microphones M′a and M′b are installed on a
ここでは、マイクロフォンM’a,M’b間の中点が、床902から「130cm」の高さとなっている。ただし、高さ「130cm」は一例であり、任意に変更可能である。また、壁901における子供でも操作可能な高さ(例えば、100cm程度)の位置に、端末Tiが設置されている。なお、端末Tiとは異なる他の端末Tについても、端末Tiとほぼ同じ高さの位置に設置される。
Here, the midpoint between the microphones M′a and M′b is a height of “130 cm” from the
この場合、音声認識部604は、マイクロフォンM’a,M’bそれぞれに入力される音に関する情報に基づいて、端末Tiのユーザの身長が所定の高さK以上であるか否かを判断することにしてもよい。所定の高さKは、マイクロフォンM’a,M’bが設置された高さに相当する。図9の例では、所定の高さKは、例えば、「130cm」である。
In this case, the
ただし、高さ方向の音源を認識するにあたり、端末Tiのユーザのみが発話することとする。この際、端末Tiのユーザは、発話区間を指定するための操作ボタン403の操作を行う。この結果、端末Tiのビーコン信号bsが送信され、情報処理装置101は、ビーコン信号bsから、端末Tiを音源として特定することができる。
However, only the user of the terminal Ti speaks when recognizing the sound source in the height direction. At this time, the user of the terminal Ti operates the
具体的には、例えば、音声認識部604は、各マイクロフォンM’a,M’bに入力される音の時間差(音源からの伝搬遅延時間の差)から、マイクロフォンM’a,M’bの上方向または下方向のいずれの方向に音源があるかを判断する。ここで、音源が上方向にある場合、音声認識部604は、端末Tiのユーザの身長が所定の高さK以上であると判断する。一方、音源が下方向にある場合、音声認識部604は、端末Tiのユーザの身長が所定の高さK未満であると判断する。
Specifically, for example, the
そして、音声認識部604は、判断結果に基づいて、抽出部603によって抽出された端末Tiのユーザが発話した音に関する情報を音声認識する。具体的には、例えば、音声認識部604は、端末Tiのユーザの身長が所定の高さK以上の場合、大人用の音響モデルを用いて音声認識を行う(図9中、(9−1))。一方、端末Tiのユーザの身長が所定の高さK未満の場合には、音声認識部604は、子供用の音響モデルを用いて音声認識を行う(図9中、(9−2))。
Based on the determination result, the
これにより、端末Tiのユーザが大人であるか子供であるかを判別して、音声認識に用いる音響モデルを設定することが可能となり、音声認識精度を向上させることができる。また、図9に示すような位置関係で、マイクロフォンM’a,M’bと端末Tiを壁901に設置することで、マイクロフォンM’a,M’bから音源(端末Tiのユーザ)までの距離が固定され、音源方向の推定精度を向上させることができる。
Thereby, it is possible to determine whether the user of the terminal Ti is an adult or a child, and to set an acoustic model used for speech recognition, thereby improving speech recognition accuracy. In addition, by installing the microphones M′a, M′b and the terminal Ti on the
(端末Tiのユーザの位置特定)
つぎに、図10および図11を用いて、端末Tiのユーザの位置特定について説明する。まず、図10を用いて、情報処理装置101の第2のハードウェア構成例について説明する。ただし、図3で説明した構成部と同一の構成部については説明を省略する。
(Locating the user of the terminal Ti)
Next, the location of the user of the terminal Ti will be described with reference to FIGS. First, a second hardware configuration example of the
図10は、情報処理装置101の第2のハードウェア構成例を示す説明図である。図10において、情報処理装置101は、CPU301と、メモリ302と、I/F303と、ビーコン受信部304と、ディスクドライブ305と、ディスク306と、収音部307と、第2の収音部1001と、を有する。また、各構成部は、バス300によってそれぞれ接続される。
FIG. 10 is an explanatory diagram illustrating a second hardware configuration example of the
第2の収音部1001は、マイクロフォンM3,M4と、バッファB3,B4と、を含む。マイクロフォンM3,M4は、音声を電気信号に変換する装置である。マイクロフォンM3,M4は、空間R内の高さが略同一の位置であって、マイクロフォンM1,M2とは異なる位置に設置される。
The second
バッファB3は、マイクロフォンM3に接続され、マイクロフォンM3に入力される音に関する情報を記憶する。バッファB4は、マイクロフォンM4に接続され、マイクロフォンM4に入力される音に関する情報を記憶する。なお、第2の収音部1001は、3以上のマイクロフォンMと、3以上のマイクロフォンMそれぞれに接続されるバッファBとを含むことにしてもよい。
The buffer B3 is connected to the microphone M3 and stores information related to sound input to the microphone M3. The buffer B4 is connected to the microphone M4 and stores information related to the sound input to the microphone M4. The second
図11は、複数のマイクロフォンMとユーザとの位置関係の一例を示す説明図(その2)である。図11において、空間R内に端末T1のユーザAが存在する場合を想定する。また、空間Rの左側にマイクロフォンM1,M2が設置され、空間Rの手前側にマイクロフォンM3,M4が設置されている。 FIG. 11 is an explanatory diagram (part 2) illustrating an example of the positional relationship between the plurality of microphones M and the user. In FIG. 11, it is assumed that the user A of the terminal T1 exists in the space R. Further, microphones M1 and M2 are installed on the left side of the space R, and microphones M3 and M4 are installed on the front side of the space R.
ここでは、X軸とY軸とからなる原点Oの座標系が設定されているとする。X軸とY軸は水平面に平行である。すなわち、X軸とY軸とからなる座標系は、空間Rを上方から見た座標系である。また、マイクロフォンM1,M2の設置位置を「(X,Y)=(0,H)」とし、マイクロフォンM3,M4の設置位置を「(X,Y)=(W,0)」とする。 Here, it is assumed that a coordinate system of the origin O composed of the X axis and the Y axis is set. The X axis and the Y axis are parallel to the horizontal plane. That is, the coordinate system composed of the X axis and the Y axis is a coordinate system when the space R is viewed from above. Further, the installation positions of the microphones M1 and M2 are “(X, Y) = (0, H)”, and the installation positions of the microphones M3 and M4 are “(X, Y) = (W, 0)”.
この場合、特定部602は、マイクロフォンM1,M2それぞれに入力される音に関する情報に基づいて、マイクロフォンM1,M2から端末Tiへの方向θaを特定する。ただし、端末Tiのユーザの位置を特定するにあたり、端末Tiのユーザのみが発話することとする。この際、端末Tiのユーザは、発話区間を指定するための操作ボタン403の操作を行う。この結果、端末Tiのビーコン信号bsが送信され、情報処理装置101は、ビーコン信号bsから、端末Tiを音源として特定することができる。
In this case, the specifying
また、特定部602は、マイクロフォンM3,M4それぞれに入力される音に関する情報に基づいて、マイクロフォンM3,M4から端末Tiへの方向θbを特定する。そして、抽出部603は、特定部602によって特定された方向θa,θbと、マイクロフォンM1,M2の設置位置と、マイクロフォンM3,M4の設置位置とに基づいて、端末Tiの位置を特定する。
Further, the identifying
具体的には、例えば、抽出部603は、マイクロフォンM1,M2とマイクロフォンM3,M4それぞれへの同時入力性(ほぼ同時に同じ発話が入力される)から、下記式(1)および(2)を用いて、端末Tiの位置(x,y)を特定することができる。
Specifically, for example, the
x=(tanθb・H+W)/(1−tanθa・tanθb) ・・・(1)
y={tanθa(tanθb・H+W)+H}/(1−tanθa・tanθb)
・・・(2)
x = (tan θ b · H + W) / (1−tan θ a · tan θ b ) (1)
y = {tan θ a (tan θ b · H + W) + H} / (1−tan θ a · tan θ b )
... (2)
これにより、空間Rにおける端末Tiのユーザの位置を特定することができる。 Thereby, the position of the user of the terminal Ti in the space R can be specified.
そして、抽出部603は、特定した端末Tiの位置に基づいて、収音部307(バッファB1,B2)または第2の収音部1001(バッファB3,B4)のいずれに記憶された情報をもとに端末Tiのユーザが発話した音に関する情報を抽出するかを決定することにしてもよい。具体的には、例えば、抽出部603は、マイクロフォンM1,M2の設置位置から端末Tiの位置までの距離D1を算出する。また、抽出部603は、マイクロフォンM3,M4の設置位置から端末Tiの位置までの距離D2を算出する。ただし、距離D1,D2は、X軸とY軸とからなる座標系における距離である。
Then, the
ここで、距離D1が距離D2よりも短い場合、抽出部603は、収音部307に記憶された情報をもとに端末Tiのユーザが発話した音に関する情報を抽出すると決定する。そして、抽出部603は、バッファB1,B2に記憶されたマイクロフォンM1,M2ごとの音に関する情報のうちの発話区間PのマイクロフォンM1,M2ごとの音に関する情報と、方向θaとに基づいて、端末Tiのユーザが発話した音に関する情報を抽出する。
Here, when the distance D1 is shorter than the distance D2, the
一方、距離D2が距離D1よりも短い場合、抽出部603は、第2の収音部1001に記憶された情報をもとに端末Tiのユーザが発話した音に関する情報を抽出すると決定する。そして、抽出部603は、バッファB3,B4に記憶されたマイクロフォンM3,M4ごとの音に関する情報のうちの発話区間PのマイクロフォンM3,M4ごとの音に関する情報と、方向θbとに基づいて、端末Tiのユーザが発話した音に関する情報を抽出する。
On the other hand, when the distance D2 is shorter than the distance D1, the
これにより、端末Tiのユーザから物理的に近い位置のマイクロフォンMに入力された音に関する情報から、端末Tiのユーザが発話した音に関する情報を抽出することができる。この結果、より音圧の高い情報を使って音声認識を行うことができ、音声認識精度を向上させることができる。 Thereby, the information regarding the sound uttered by the user of the terminal Ti can be extracted from the information regarding the sound input to the microphone M physically close to the user of the terminal Ti. As a result, voice recognition can be performed using information with higher sound pressure, and voice recognition accuracy can be improved.
(情報処理装置101の情報処理手順)
つぎに、図12を用いて、情報処理装置101の情報処理手順について説明する。
(Information processing procedure of the information processing apparatus 101)
Next, an information processing procedure of the
図12は、情報処理装置101の情報処理手順の一例を示すフローチャートである。図12のフローチャートにおいて、まず、情報処理装置101は、収音部307の各バッファB1,B2への各マイクロフォンM1,M2に入力される音に関する情報のバッファリングを開始する(ステップS1201)。
FIG. 12 is a flowchart illustrating an example of an information processing procedure of the
つぎに、情報処理装置101は、端末Tiから送信されるビーコン信号bsを受信したか否かを判断する(ステップS1202)。ここで、情報処理装置101は、ビーコン信号bsを受信するのを待つ(ステップS1202:No)。そして、情報処理装置101は、ビーコン信号bsを受信した場合(ステップS1202:Yes)、ビーコン信号bsに含まれる操作種別が「ON」であるか否かを判断する(ステップS1203)。
Next, the
ここで、操作種別が「ON」の場合(ステップS1203:Yes)、情報処理装置101は、ビーコン信号bsに含まれる端末IDと対応付けて、ビーコン信号bsが受信された時刻をON時刻として、発話区間テーブル220に登録する(ステップS1204)。これにより、新たな発話区間情報がレコードとして発話区間テーブル220に登録される。
When the operation type is “ON” (step S1203: Yes), the
ただし、情報処理装置101は、ビーコン受信機201を経由してビーコン信号bsを受信する場合、複数のビーコン受信機201からほぼ同時に、同一の端末IDおよび操作種別を含むビーコン信号bsを受信することになる。この場合、情報処理装置101は、例えば、最初に受信されたビーコン信号bsに応じて、発話区間テーブル220への登録を行う。
However, when the
つぎに、情報処理装置101は、受信したビーコン信号bsに基づいて、マイクロフォンM1,M2から端末Tiへの方向θを特定する(ステップS1205)。具体的には、例えば、情報処理装置101は、複数のビーコン受信機201から受信されるビーコン信号bs(端末Tiの端末IDを含む)のRSSI値と、各ビーコン受信機201の設置位置とに基づいて、空間Rにおける端末Tiの位置を推定する。そして、情報処理装置101は、推定した端末Tiの位置と、マイクロフォンM1,M2の設置位置とに基づいて、マイクロフォンM1,M2から端末Tiへの方向θを特定する。
Next, the
つぎに、情報処理装置101は、ビーコン信号bsに含まれる端末IDと対応付けて、特定した方向θを発話区間テーブル220に登録して(ステップS1206)、ステップS1202に戻る。すなわち、情報処理装置101は、ビーコン信号bsに含まれる端末IDに対応する発話区間情報の方向フィールドに、特定した方向θを設定する。
Next, the
また、ステップS1203において、操作種別が「OFF」の場合(ステップS1203:No)、情報処理装置101は、ビーコン信号bsに含まれる端末IDと対応付けて、ビーコン信号bsが受信された時刻をOFF時刻として、発話区間テーブル220に登録する(ステップS1207)。すなわち、情報処理装置101は、ビーコン信号bsに含まれる端末IDに対応する発話区間情報のOFF時刻フィールドに、ビーコン信号bsが受信された時刻を設定する。
If the operation type is “OFF” in step S1203 (step S1203: No), the
つぎに、情報処理装置101は、発話区間テーブル220を参照して、ビーコン信号bsに含まれる端末IDに対応する発話区間P(ON時刻〜OFF時刻)および方向θを特定する(ステップS1208)。そして、情報処理装置101は、各バッファB1,B2から、特定した発話区間PのマイクロフォンM1,M2ごとの音に関する情報を読み出す(ステップS1209)。
Next, the
つぎに、情報処理装置101は、読み出した発話区間Pの各マイクロフォンM1,M2の音に関する情報に基づいて、特定した方向θへのビームフォーム処理を行う(ステップS1210)。そして、情報処理装置101は、ビームフォーム処理により抽出された端末Ti(ビーコン信号bsに含まれる端末IDの端末Ti)のユーザが発話した音に関する情報を音声認識処理する(ステップS1211)。
Next, the
つぎに、情報処理装置101は、ビーコン信号bsに含まれる端末IDと対応付けて、音声認識結果を出力する(ステップS1212)。そして、情報処理装置101は、情報処理システム100が終了したか否かを判断する(ステップS1213)。ここで、情報処理システム100が終了していない場合(ステップS1213:No)、情報処理装置101は、ステップS1202に戻る。
Next, the
一方、情報処理システム100が終了した場合(ステップS1213:Yes)、情報処理装置101は、本フローチャートによる一連の処理を終了する。これにより、端末Tiのユーザごとに発話した音に関する情報を抽出することができる。
On the other hand, when the
以上説明したように、実施の形態にかかる情報処理装置101によれば、端末Tiへの操作に応じて端末Tiから送信されるビーコン信号bsに基づいて、端末Tiのユーザが発話した発話区間Pと、マイクロフォンM1,M2から端末Tiへの方向θを特定することができる。そして、情報処理装置101によれば、バッファB1,B2に記憶された発話区間PのマイクロフォンM1,M2ごとの音に関する情報と、方向θとに基づいて、端末Tiのユーザが発話した音に関する情報を抽出することができる。具体的には、例えば、情報処理装置101によれば、発話区間PのマイクロフォンM1,M2ごとの音に関する情報に基づいて、方向θに対するビームフォーム処理を行うことにより、ユーザが発話した音に関する情報を抽出することができる。
As described above, according to the
これにより、端末Tiの方向θ(マイクロフォンM1,M2から見た端末Tiのユーザの方向)から到来した音声信号を強調して、端末Tiのユーザが発話した音を抽出することができる。また、各バッファB1,B2に記憶されたマイクロフォンM1,M2ごとの音に関する情報を用いて、各方向θから到来した音声信号を強調した音情報をそれぞれ生成することができる。このため、複数人が同じタイミングで発話した場合であっても、ユーザごとに発話した音を精度良く抽出することができる。 As a result, it is possible to extract the sound uttered by the user of the terminal Ti by emphasizing the voice signal that has arrived from the direction θ of the terminal Ti (the direction of the user of the terminal Ti viewed from the microphones M1 and M2). In addition, sound information in which the sound signal arriving from each direction θ is emphasized can be generated using the information regarding the sound for each of the microphones M1 and M2 stored in the buffers B1 and B2. For this reason, even when a plurality of people speak at the same timing, it is possible to accurately extract the sound spoken for each user.
また、情報処理装置101によれば、抽出した端末Tiのユーザが発話した音に関する情報を、端末Tiの端末IDと対応付けて出力することができる。これにより、ユーザが発話した音に関する情報を、当該ユーザを判別可能にして外部装置等(例えば、音声認識装置)に提供することができる。
Further, according to the
また、情報処理装置101によれば、抽出した端末Tiのユーザが発話した音に関する情報を音声認識し、音声認識した認識結果を、端末Tiの端末IDと対応付けて出力することができる。これにより、ユーザが発話した音に関する情報を音声認識して得られた認識結果を、当該ユーザを判別可能にして外部装置等(例えば、音声入力可能な電子機器)に提供することができる。
Further, according to the
また、情報処理装置101によれば、高さが異なる位置に設置されるマイクロフォンM’a,M’bそれぞれに入力される音に関する情報に基づいて、端末Tiのユーザの身長が所定の高さK以上であるか否かを判断することができる。そして、情報処理装置101によれば、判断した結果に基づいて、抽出した端末Tiのユーザが発話した音に関する情報を音声認識することができる。これにより、例えば、端末Tiのユーザが大人であるか子供であるかを判別して、音声認識に用いる音響モデルを設定することが可能となり、音声認識精度を向上させることができる。
Further, according to the
また、情報処理装置101によれば、マイクロフォンM1,M2それぞれに入力される音に関する情報に基づいて、マイクロフォンM1,M2から端末Tiへの方向θaを特定することができる。また、情報処理装置101によれば、マイクロフォンM1,M2とは異なる位置に設置されるマイクロフォンM3,M4それぞれに入力される音に関する情報に基づいて、マイクロフォンM3,M4から端末Tiへの方向θbを特定することができる。そして、情報処理装置101によれば、特定した方向θa,θbと、マイクロフォンM1,M2の設置位置と、マイクロフォンM3,M4の設置位置とに基づいて、端末Tiの位置を特定することができる。
Further, according to the
これにより、空間Rにおける端末Tiのユーザの位置を特定することができる。ただし、端末Tiのユーザの位置を特定するにあたり、端末Tiのユーザのみが発話することとする。このため、複数のユーザが存在する場合は、例えば、複数のユーザそれぞれが順番に発話して、各ユーザの位置を特定することになる。 Thereby, the position of the user of the terminal Ti in the space R can be specified. However, only the user of the terminal Ti speaks in specifying the position of the user of the terminal Ti. For this reason, when there are a plurality of users, for example, each of the plurality of users speaks in order and specifies the position of each user.
また、情報処理装置101によれば、特定した端末Tiの位置に基づいて、収音部307(バッファB1,B2)または第2の収音部1001(バッファB3,B4)のいずれに記憶された情報をもとに端末Tiのユーザが発話した音に関する情報を抽出するかを決定することができる。
Further, according to the
これにより、端末Tiのユーザから物理的に近い位置のマイクロフォンMに入力された音に関する情報から、端末Tiのユーザが発話した音に関する情報を抽出することができる。この結果、より音圧の高い情報を使って音声認識を行うことができ、音声認識精度を向上させることができる。 Thereby, the information regarding the sound uttered by the user of the terminal Ti can be extracted from the information regarding the sound input to the microphone M physically close to the user of the terminal Ti. As a result, voice recognition can be performed using information with higher sound pressure, and voice recognition accuracy can be improved.
上述した実施の形態に関し、さらに以下の付記を開示する。 The following additional notes are disclosed with respect to the embodiment described above.
(付記1)複数のマイクロフォンと、
前記複数のマイクロフォンに含まれるマイクロフォンごとに、前記マイクロフォンに入力される音に関する情報を記憶する記憶部と、
端末への操作に応じて前記端末から送信される情報に基づいて、前記端末のユーザが発話した期間と、前記複数のマイクロフォンから前記端末への方向とを特定する特定部と、
前記記憶部に記憶された前記期間の前記マイクロフォンごとの音に関する情報と、前記方向とに基づいて、前記ユーザが発話した音に関する情報を抽出する抽出部と、
を有することを特徴とする情報処理装置。
(Supplementary note 1) a plurality of microphones;
For each microphone included in the plurality of microphones, a storage unit that stores information about sound input to the microphones;
Based on information transmitted from the terminal in response to an operation to the terminal, a specifying unit that specifies a period during which the user of the terminal spoke and a direction from the plurality of microphones to the terminal;
An extraction unit for extracting information on the sound uttered by the user based on the information on the sound for each microphone in the period stored in the storage unit and the direction;
An information processing apparatus comprising:
(付記2)前記抽出部によって抽出された前記ユーザが発話した音に関する情報を、前記端末の識別情報と対応付けて出力する出力部を有することを特徴とする付記1に記載の情報処理装置。 (Supplementary note 2) The information processing apparatus according to supplementary note 1, further comprising: an output unit that outputs information relating to the sound uttered by the user extracted by the extraction unit in association with identification information of the terminal.
(付記3)前記抽出部によって抽出された前記ユーザが発話した音に関する情報を音声認識する音声認識部と、
前記音声認識部によって音声認識された認識結果を、前記端末の識別情報と対応付けて出力する出力部と、
を有することを特徴とする付記1または2に記載の情報処理装置。
(Supplementary Note 3) A voice recognition unit that recognizes information related to the sound uttered by the user extracted by the extraction unit;
An output unit that outputs a recognition result recognized by the voice recognition unit in association with identification information of the terminal;
The information processing apparatus according to appendix 1 or 2, characterized by comprising:
(付記4)前記抽出部は、
前記期間の前記マイクロフォンごとの音に関する情報に基づいて、前記方向に対するビームフォーム処理を行うことにより、前記ユーザが発話した音に関する情報を抽出する、ことを特徴とする付記1〜3のいずれか一つに記載の情報処理装置。
(Supplementary Note 4) The extraction unit
Any one of appendices 1 to 3, wherein information related to the sound spoken by the user is extracted by performing beamform processing for the direction based on information related to the sound for each microphone in the period. Information processing apparatus described in one.
(付記5)前記音声認識部は、
高さが異なる位置に設置される複数の第2マイクロフォンそれぞれに入力される音に関する情報に基づいて、前記ユーザの身長が所定の高さ以上であるか否かを判断し、
判断した判断結果に基づいて、前記抽出部によって抽出された前記ユーザが発話した音に関する情報を音声認識する、ことを特徴とする付記3に記載の情報処理装置。
(Supplementary Note 5) The voice recognition unit
Determining whether the height of the user is greater than or equal to a predetermined height based on information about sound input to each of the plurality of second microphones installed at different heights;
4. The information processing apparatus according to appendix 3, wherein information related to the sound uttered by the user extracted by the extraction unit is recognized based on the determined determination result.
(付記6)前記複数のマイクロフォンとは異なる位置に設置された複数の第3マイクロフォンと、
前記複数の第3マイクロフォンに含まれる第3マイクロフォンごとに、前記第3マイクロフォンに入力される音に関する情報を記憶する第2記憶部と、を有し、
前記特定部は、
前記複数のマイクロフォンそれぞれに入力される音に関する情報に基づいて、前記複数のマイクロフォンから前記端末への第1の方向を特定し、
前記複数の第3マイクロフォンそれぞれに入力される音に関する情報に基づいて、前記複数の第3マイクロフォンから前記端末への第2の方向を特定し、
前記抽出部は、
前記第1および第2の方向と、前記複数のマイクロフォンの設置位置と、前記複数の第3マイクロフォンの設置位置とに基づいて、前記端末の位置を特定し、
特定した前記端末の位置に基づいて、前記記憶部または前記第2記憶部のいずれに記憶された情報をもとに前記ユーザが発話した音に関する情報を抽出するかを決定する、
ことを特徴とする付記1〜5のいずれか一つに記載の情報処理装置。
(Appendix 6) A plurality of third microphones installed at positions different from the plurality of microphones;
A second storage unit that stores information about sound input to the third microphone for each third microphone included in the plurality of third microphones;
The specific part is:
Identifying a first direction from the plurality of microphones to the terminal based on information about sound input to each of the plurality of microphones;
Identifying a second direction from the plurality of third microphones to the terminal based on information about sound input to each of the plurality of third microphones;
The extraction unit includes:
Identifying the position of the terminal based on the first and second directions, the installation positions of the plurality of microphones, and the installation positions of the plurality of third microphones;
Based on the identified position of the terminal, it is determined whether to extract information related to the sound spoken by the user based on information stored in either the storage unit or the second storage unit.
The information processing apparatus according to any one of supplementary notes 1 to 5, wherein:
(付記7)端末への操作に応じて前記端末から送信される情報に基づいて、前記端末のユーザが発話した期間と、複数のマイクロフォンから前記端末への方向とを特定し、
前記複数のマイクロフォンに含まれるマイクロフォンごとに、前記マイクロフォンに入力される音に関する情報を記憶する記憶部に記憶された前記期間の前記マイクロフォンごとの音に関する情報と、前記方向とに基づいて、前記ユーザが発話した音に関する情報を抽出する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
(Appendix 7) Based on information transmitted from the terminal in response to an operation on the terminal, a period during which the user of the terminal speaks and directions from a plurality of microphones to the terminal are identified,
For each microphone included in the plurality of microphones, the user based on the information about the sound for each microphone in the period stored in the storage unit that stores information about the sound input to the microphone, and the direction Extract information about the sound uttered by
An information processing program for causing a computer to execute processing.
(付記8)複数のマイクロフォンを壁に有する建物であって、
前記複数のマイクロフォンに含まれるマイクロフォンごとに、前記マイクロフォンに入力される音に関する情報を記憶する記憶部と、端末への操作に応じて前記端末から送信される情報に基づいて、前記端末のユーザが発話した期間と、前記複数のマイクロフォンから前記端末への方向とを特定する特定部と、前記記憶部に記憶された前記期間の前記マイクロフォンごとの音に関する情報と、前記方向とに基づいて、前記ユーザが発話した音に関する情報を抽出する抽出部とを有する情報処理装置
を備えることを特徴とする建物。
(Appendix 8) A building having a plurality of microphones on a wall,
For each microphone included in the plurality of microphones, based on information stored in the storage unit that stores information related to sound input to the microphone and information transmitted from the terminal in response to an operation on the terminal, the user of the terminal Based on the period of utterance, the identification unit that identifies the direction from the plurality of microphones to the terminal, the information on the sound for each microphone of the period stored in the storage unit, and the direction, A building comprising: an information processing apparatus including an extraction unit that extracts information related to sound uttered by a user.
100 情報処理システム
101 情報処理装置
110 記憶部
201 ビーコン受信機
210 ネットワーク
220 発話区間テーブル
300,400 バス
301,401 CPU
302,402 メモリ
303 I/F
304 ビーコン受信部
305 ディスクドライブ
306 ディスク
307,1001 収音部
403 操作ボタン
404 LEDランプ
405 ビーコン送信部
601 取得部
602 特定部
603 抽出部
604 音声認識部
605 出力部
DESCRIPTION OF
302, 402 Memory 303 I / F
304
Claims (7)
前記複数のマイクロフォンに含まれるマイクロフォンごとに、前記マイクロフォンに入力される音に関する情報を記憶する記憶部と、
端末への操作に応じて前記端末から送信される情報に基づいて、前記端末のユーザが発話した期間と、前記複数のマイクロフォンから前記端末への方向とを特定する特定部と、
前記記憶部に記憶された前記期間の前記マイクロフォンごとの音に関する情報と、前記方向とに基づいて、前記ユーザが発話した音に関する情報を抽出する抽出部と、
を有することを特徴とする情報処理装置。 Multiple microphones,
For each microphone included in the plurality of microphones, a storage unit that stores information about sound input to the microphones;
Based on information transmitted from the terminal in response to an operation to the terminal, a specifying unit that specifies a period during which the user of the terminal spoke and a direction from the plurality of microphones to the terminal;
An extraction unit for extracting information on the sound uttered by the user based on the information on the sound for each microphone in the period stored in the storage unit and the direction;
An information processing apparatus comprising:
前記音声認識部によって音声認識された認識結果を、前記端末の識別情報と対応付けて出力する出力部と、
を有することを特徴とする請求項1または2に記載の情報処理装置。 A voice recognition unit for recognizing information about the sound uttered by the user extracted by the extraction unit;
An output unit that outputs a recognition result recognized by the voice recognition unit in association with identification information of the terminal;
The information processing apparatus according to claim 1, further comprising:
高さが異なる位置に設置される複数の第2マイクロフォンそれぞれに入力される音に関する情報に基づいて、前記ユーザの身長が所定の高さ以上であるか否かを判断し、
判断した判断結果に基づいて、前記抽出部によって抽出された前記ユーザが発話した音に関する情報を音声認識する、ことを特徴とする請求項3に記載の情報処理装置。 The voice recognition unit
Determining whether the height of the user is greater than or equal to a predetermined height based on information about sound input to each of the plurality of second microphones installed at different heights;
The information processing apparatus according to claim 3, wherein information on the sound uttered by the user extracted by the extraction unit is recognized based on the determined determination result.
前記複数の第3マイクロフォンに含まれる第3マイクロフォンごとに、前記第3マイクロフォンに入力される音に関する情報を記憶する第2記憶部と、を有し、
前記特定部は、
前記複数のマイクロフォンそれぞれに入力される音に関する情報に基づいて、前記複数のマイクロフォンから前記端末への第1の方向を特定し、
前記複数の第3マイクロフォンそれぞれに入力される音に関する情報に基づいて、前記複数の第3マイクロフォンから前記端末への第2の方向を特定し、
前記抽出部は、
前記第1および第2の方向と、前記複数のマイクロフォンの設置位置と、前記複数の第3マイクロフォンの設置位置とに基づいて、前記端末の位置を特定し、
特定した前記端末の位置に基づいて、前記記憶部または前記第2記憶部のいずれに記憶された情報をもとに前記ユーザが発話した音に関する情報を抽出するかを決定する、
ことを特徴とする請求項1〜4のいずれか一つに記載の情報処理装置。 A plurality of third microphones installed at positions different from the plurality of microphones;
A second storage unit that stores information about sound input to the third microphone for each third microphone included in the plurality of third microphones;
The specific part is:
Identifying a first direction from the plurality of microphones to the terminal based on information about sound input to each of the plurality of microphones;
Identifying a second direction from the plurality of third microphones to the terminal based on information about sound input to each of the plurality of third microphones;
The extraction unit includes:
Identifying the position of the terminal based on the first and second directions, the installation positions of the plurality of microphones, and the installation positions of the plurality of third microphones;
Based on the identified position of the terminal, it is determined whether to extract information related to the sound spoken by the user based on information stored in either the storage unit or the second storage unit.
The information processing apparatus according to claim 1, wherein the information processing apparatus is an information processing apparatus.
前記複数のマイクロフォンに含まれるマイクロフォンごとに、前記マイクロフォンに入力される音に関する情報を記憶する記憶部に記憶された前記期間の前記マイクロフォンごとの音に関する情報と、前記方向とに基づいて、前記ユーザが発話した音に関する情報を抽出する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。 Based on information transmitted from the terminal in response to an operation to the terminal, specify a period during which the user of the terminal speaks and directions from a plurality of microphones to the terminal,
For each microphone included in the plurality of microphones, the user based on the information about the sound for each microphone in the period stored in the storage unit that stores information about the sound input to the microphone, and the direction Extract information about the sound uttered by
An information processing program for causing a computer to execute processing.
前記複数のマイクロフォンに含まれるマイクロフォンごとに、前記マイクロフォンに入力される音に関する情報を記憶する記憶部と、端末への操作に応じて前記端末から送信される情報に基づいて、前記端末のユーザが発話した期間と、前記複数のマイクロフォンから前記端末への方向とを特定する特定部と、前記記憶部に記憶された前記期間の前記マイクロフォンごとの音に関する情報と、前記方向とに基づいて、前記ユーザが発話した音に関する情報を抽出する抽出部とを有する情報処理装置
を備えることを特徴とする建物。 A building having a plurality of microphones on the wall,
For each microphone included in the plurality of microphones, based on information stored in the storage unit that stores information related to sound input to the microphone and information transmitted from the terminal in response to an operation on the terminal, the user of the terminal Based on the period of utterance, the identification unit that identifies the direction from the plurality of microphones to the terminal, the information on the sound for each microphone of the period stored in the storage unit, and the direction, A building comprising: an information processing apparatus including an extraction unit that extracts information related to sound uttered by a user.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017085533A JP2018185372A (en) | 2017-04-24 | 2017-04-24 | Information processor, information processing program and building |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017085533A JP2018185372A (en) | 2017-04-24 | 2017-04-24 | Information processor, information processing program and building |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2018185372A true JP2018185372A (en) | 2018-11-22 |
Family
ID=64355793
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017085533A Pending JP2018185372A (en) | 2017-04-24 | 2017-04-24 | Information processor, information processing program and building |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2018185372A (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2021012530A (en) * | 2019-07-05 | 2021-02-04 | 清水建設株式会社 | Communication measurement system |
| WO2025074710A1 (en) * | 2023-10-04 | 2025-04-10 | ソニーグループ株式会社 | Information processing device and information processing system |
-
2017
- 2017-04-24 JP JP2017085533A patent/JP2018185372A/en active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2021012530A (en) * | 2019-07-05 | 2021-02-04 | 清水建設株式会社 | Communication measurement system |
| JP7316856B2 (en) | 2019-07-05 | 2023-07-28 | 清水建設株式会社 | Communication measurement system |
| WO2025074710A1 (en) * | 2023-10-04 | 2025-04-10 | ソニーグループ株式会社 | Information processing device and information processing system |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11875820B1 (en) | Context driven device arbitration | |
| US12033632B2 (en) | Context-based device arbitration | |
| US12125483B1 (en) | Determining device groups | |
| KR102098136B1 (en) | Select device to provide response | |
| US12154591B2 (en) | Voice interactive wakeup electronic device and method based on microphone signal, and medium | |
| KR101834546B1 (en) | Terminal and handsfree device for servicing handsfree automatic interpretation, and method thereof | |
| JP6402748B2 (en) | Spoken dialogue apparatus and utterance control method | |
| JP2018049143A (en) | Voice acquisition system and voice acquisition method | |
| CN110097875A (en) | Interactive voice based on microphone signal wakes up electronic equipment, method and medium | |
| JP2018169473A (en) | Voice processing device, voice processing method and program | |
| US11182567B2 (en) | Speech translation apparatus, speech translation method, and recording medium storing the speech translation method | |
| CN107240405A (en) | A kind of audio amplifier and alarm method | |
| WO2020244411A1 (en) | Microphone signal-based voice interaction wakeup electronic device and method, and medium | |
| WO2014173325A1 (en) | Gutturophony recognition method and device | |
| JP6385150B2 (en) | Management device, conversation system, conversation management method and program | |
| JP2018185372A (en) | Information processor, information processing program and building | |
| WO2019150708A1 (en) | Information processing device, information processing system, information processing method, and program | |
| Panek et al. | Challenges in adopting speech control for assistive robots | |
| CN108174030B (en) | Customized voice control implementation method, mobile terminal and readable storage medium | |
| KR101863098B1 (en) | Apparatus and method for speech recognition | |
| WO2019187543A1 (en) | Information processing device and information processing method | |
| JP2000206986A (en) | Language information detector | |
| WO2022086359A1 (en) | Method and device for audio signal diarization | |
| CN115035886B (en) | Voiceprint recognition method and electronic device | |
| JP2000311077A (en) | Voice information input device |