JP2023117068A - Speech recognition device, speech recognition method, speech recognition program, speech recognition system - Google Patents
Speech recognition device, speech recognition method, speech recognition program, speech recognition system Download PDFInfo
- Publication number
- JP2023117068A JP2023117068A JP2022019554A JP2022019554A JP2023117068A JP 2023117068 A JP2023117068 A JP 2023117068A JP 2022019554 A JP2022019554 A JP 2022019554A JP 2022019554 A JP2022019554 A JP 2022019554A JP 2023117068 A JP2023117068 A JP 2023117068A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- image
- data
- interest
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】映像データに含まれる画像から特定した音源となる発話者の発話内容を表示させる音声認識装置、音声認識方法、音声認識プログラム及び音声認識システムを提供する。【解決手段】情報処理装置と、撮像装置と、表示装置とが、ネットワーク等を介して接続されている音声認識システムにおいて、情報処理装置である情報処理端末200Aの音声認識処理部230は、映像データに含まれる画像データが示す画像から検出された人物の顔画像に基づいて注目話者を決定する注目話者決定部247と、映像データに含まれる音声データのうち、注目話者の音声データから変換されたテキストデータを表示装置に表示させる発話内容認識結果出力部233と、を有する。【選択図】図5The present invention provides a speech recognition device, a speech recognition method, a speech recognition program, and a speech recognition system that display the utterances of a speaker who is a sound source identified from an image included in video data. In a voice recognition system in which an information processing device, an imaging device, and a display device are connected via a network or the like, a voice recognition processing unit 230 of an information processing terminal 200A, which is the information processing device, A notable speaker determination unit 247 that determines a notable speaker based on a face image of a person detected from an image indicated by image data included in the data; and audio data of a notable speaker from among audio data included in the video data. The utterance content recognition result output unit 233 displays the text data converted from the utterance content recognition result output unit 233 on a display device. [Selection diagram] Figure 5
Description
本発明は、音声認識装置、音声認識方法、音声認識プログラム、音声認識システムに関する。 The present invention relates to a speech recognition device, a speech recognition method, a speech recognition program, and a speech recognition system.
近年では、画像から音源となる発話者を特定し、特定した発話者が発している音声を文字画像に変換して表示部に表示させる技術が知られている。具体的には、例えば、画像において特定された人物が口を動かしている場合に、この人物の音声を文字に変換して表示させるシステムが知られている。 In recent years, a technique is known in which a speaker who is a sound source is specified from an image, the voice uttered by the specified speaker is converted into a character image, and the character image is displayed on a display unit. Specifically, for example, when a person specified in an image is moving his mouth, a system is known that converts the voice of the person into text and displays the text.
上述した従来の技術では、画像の中に、口を動かしている人物が複数存在する場合等には、注目すべき発話者を選択することができない。このため、従来の技術では、特定の人物に注目した場合に、注目した人物の発話内容が適切に表示されない可能性がある。 With the above-described conventional technology, when there are multiple persons moving their mouths in the image, it is not possible to select a speaker of interest. For this reason, when focusing on a specific person, there is a possibility that the utterance content of the focused person may not be displayed appropriately in the conventional technology.
開示の技術は、上記事情に鑑みたものであり、特定の発話者の発話内容を表示させることを目的とする。 The technology disclosed has been made in view of the above circumstances, and aims to display the utterance content of a specific speaker.
開示の技術は、映像データに含まれる画像データが示す画像から検出された人物の顔画像に基づき、注目話者を決定する注目話者決定部と、前記映像データに含まれる音声データのうち、前記注目話者の音声データから変換されたテキストデータを表示装置に表示させる発話内容認識結果出力部と、を有する音声認識装置である。 The disclosed technology includes a target speaker determination unit that determines a target speaker based on a face image of a person detected from an image represented by image data included in video data, and voice data included in the video data, and a speech recognition result output unit for displaying text data converted from the speech data of the speaker of interest on a display device.
特定の発話者の発話内容を表示させることができる。 It is possible to display the utterance contents of a specific speaker.
(第一の実施形態)
以下に図面を参照して、第一の実施形態について説明する。図1は、第一の実施形態の音声認識システムの一例を示す図である。
(First embodiment)
A first embodiment will be described below with reference to the drawings. FIG. 1 is a diagram showing an example of the speech recognition system of the first embodiment.
本実施形態の音声認識システム100は、情報処理装置200と、撮像装置300と、表示装置400とを含み、情報処理装置200と撮像装置300と表示装置400とは、ネットワーク等を介して接続されている。
The
本実施形態の音声認識システム100において、情報処理装置200は、音声認識処理部230を有する。
In the
本実施形態の撮像装置300は、映像データを取得し、情報処理装置200へ送信する。映像データは、画像データ(動画データ)と音声データとを含む。
The
本実施形態では、映像データは、音声認識システム100の利用者が、撮像装置300を用いて撮影し、情報処理装置200に送信したものであってよい。したがって、映像データに含まれる画像データには、利用者自身が注目する発話者が含まれる。
In this embodiment, the video data may be captured by the user of the
本実施形態の情報処理装置200は、音声認識処理部230により、撮像装置300から取得した映像データに含まれる画像データに基づき、音声認識システム100の利用者が注目する発話者を特定する。そして、情報処理装置200は、音声認識処理部230により、利用者が注目した発話者の音声データのみを、テキストデータに変換して表示装置400に表示させる。なお、表示装置400は、例えば、情報処理装置200の有するディスプレイ等であってもよい。
The
このように、本実施形態では、画像データから、利用者が注目した発話者を特定し、特定された発話者の音声データのみをテキストデータに変換して出力する。したがって、本実施形態によれば、利用者が注目した特定の発話者の発話内容を表示させることができる。 As described above, in the present embodiment, the user identifies the speaker of interest from the image data, and converts only the voice data of the identified speaker into text data and outputs the text data. Therefore, according to the present embodiment, it is possible to display the utterance content of a specific utterer focused on by the user.
以下に、図2を参照して、本実施形態の情報処理装置200による音声認識の概要について説明する。図2は、第一の実施形態の音声認識の概要について説明する第一の図である。
An outline of speech recognition by the
図2に示す画像21は、撮像装置300により取得された画像データが示す画像の一例である。
An
画像21には、人物Aの画像と、人物Bの画像とが含まれる。本実施形態の情報処理装置200は、画像21に含まれる人物の画像のうち、顔画像の位置が画像21の中心に近い位置にある人物の画像を、注目すべき人物に特定する。
The
図2の例では、人物Aの顔画像は、人物Bの顔画像よりも、画像21の中心に近い。したがって、図2では、人物Aが注目すべき発話者に特定される。
In the example of FIG. 2, the facial image of person A is closer to the center of
なお、画像の中心とは、画像が示す矩形の対角線が交わる位置であってよい。また、以下の説明では、注目すべき発話者を、注目話者と表現する場合がある。注目すべき発話者とは、言い換えれば、音声認識システム100の利用者が注目している特定の発話者である。
Note that the center of the image may be the position where the diagonal lines of the rectangle indicated by the image intersect. Also, in the following description, a speaker to be noted may be referred to as a speaker of interest. A speaker of interest is, in other words, a specific speaker that the user of the
本実施形態では、人物Aが注目話者に特定されると、人物Aの口唇部分の動きを示す動画像と、撮像装置300が取得した音声データとかを用いて、注目話者である人物Aの音声データをテキストデータ23に変換して、表示させる。したがって、本実施形態によれば、注目話者の発話内容を高い精度でテキストデータに変換することができる。
In the present embodiment, when person A is identified as the speaker of interest, the person A, who is the speaker of interest, is identified using a moving image showing the movement of the lips of person A and audio data acquired by the
なお、このとき、本実施形態では、画像21と、テキストデータ23とが重畳されて表示されてもよい。
At this time, in the present embodiment, the
次に、図3を参照して、本実施形態の音声認識システム100を、スマートグラスに適用した場合について説明する。
Next, a case where the
図3は、音声認識システムをスマートグラスに適用した場合について説明する図である。図3では、音声認識システム100をスマートグラス100Aとして説明する。
FIG. 3 is a diagram illustrating a case where the speech recognition system is applied to smart glasses. In FIG. 3, the
図3のスマートグラスのハードウェア構成の一例を示す図である。本実施形態のスマートグラス100Aは、眼鏡型表示装置300Aと、情報処理端末200Aと、ケーブル150とを含む眼鏡型ウェアラブル端末である。なお、図3の例では、眼鏡型表示装置300Aと、情報処理端末200Aとがケーブル150によって接続されるものとしたが、これに限定されない。眼鏡型表示装置300Aと、情報処理端末200Aとは、無線通信を行ってもよい。
4 is a diagram illustrating an example of a hardware configuration of the smart glasses of FIG. 3; FIG. The
眼鏡型表示装置300Aは、カメラ(撮像装置)110、マイク(集音装置)120、ディスプレイ(表示装置)130、操作部材140と、を含む。つまり、眼鏡型表示装置300Aは、撮像装置と表示装置とを含む。
The glasses-
カメラ110は、スマートグラス100Aを装着した装着者の視線方向の画像データを取得する。マイク120は、スマートグラス100Aの周辺の音声データを取得する。ディスプレイ130は、情報処理端末200Aから出力されるテキストデータが表示される。なお、本実施形態のディスプレイ130は、光学シースルー型のディスプレイであってよい。操作部材140は、物理的なボタン等であってよく、眼鏡型表示装置300Aに対する各種の操作が行われる。
The
また、本実施形態では、カメラ110とマイク120とが別々に設けられるものとしたが、これに限定されない。本実施形態のマイク120は、カメラ110に内蔵されていてもよい。この場合、カメラ110が、画像データと音声データとを含む映像データを取得することになる。
Also, in the present embodiment, the
ケーブル150は、カメラ110が取得した画像データと、マイク120が取得した音声データと、を情報処理端末200Aに送信する。また、ケーブル150は、情報処理端末200Aから眼鏡型表示装置300Aに対して各種の情報を送信する。
情報処理端末200Aは、情報入出力インターフェイス(I/F)201、メモリ202、操作装置203、ストレージ204、電源205、CPU(Central Processing Unit)206、ネットワークインターフェイス(I/F)207を含む。
情報入出力インターフェイス(I/F)201は、情報処理端末200Aと眼鏡型表示装置300Aとの間で各種データの送受信を行うためのインターフェイスである。メモリ202は、音声データや画像データ(動画データ)等の一時的な情報が格納される。操作装置203は、スマートグラス100Aの装着者によるアプリケーションの実行、電源のオン/オフ等の各種の操作が行われる。操作装置203は、例えば、タッチパネル等により実現されてよい。
An information input/output interface (I/F) 201 is an interface for transmitting and receiving various data between the
ストレージ204は、後述する各種のモデル等が格納される。電源205は、スマートグラス100Aの有する各装置に電力を供給する。CPU206は、各種の処理を実行し、スマートグラス100A全体の動作を制御する。
The
情報処理端末200Aは、CPU206がストレージ204等に格納されたプログラムを読み出して実行することで、音声認識処理部230の機能を実現する。
200 A of information processing terminals implement|achieve the function of the speech-
ネットワークインターフェイス207は、通信ネットワークにアクセスするためのインターフェイスである。
A
なお、図3に示すスマートグラス100Aは、眼鏡型表示装置300Aと情報処理端末200Aとを含むものとしたが、これに限定されない。スマートグラス100Aにおいて、眼鏡型表示装置300Aが、情報処理端末200Aの全ての構成を有していてもよい。
Note that the
次に、図4を参照して、スマートグラス100Aによる音声認識の概要について説明する。図4は、第一の実施形態の音声認識の概要について説明する第二の図である。
Next, an outline of speech recognition by the
本実施形態のスマートグラス100Aにおいて、情報処理端末200Aは、カメラ110から取得した画像データに基づき、注目話者を特定する。そして、情報処理端末200Aは、マイク120から取得した注目話者の音声データから変換したテキストデータをディスプレイ130に表示させる。
In the
図4の例では、スマートグラス100Aの装着者Pは、人物Aに注目している。また、図4の例では、装着者Pの視線方向に人物Aと人物Bが存在する。この場合、スマートグラス100Aのカメラ110が撮像する画像は、装着者Pが注目する人物Aの画像が中心部分に位置する画像となる。
In the example of FIG. 4, the wearer P of the
したがって、スマートグラス100Aでは、人物Aを注目話者に特定し、注目話者の音声データのみをテキストデータに変換して、ディスプレイ130にテキストデータのみを表示させる。
Therefore, in the
本実施形態では、このように、音声認識システム100をスマートグラス100Aに適用することで、スマートグラス100Aの装着者Pが注目する人物の方向を向くだけで、装着者Pが注目する人物が注目話者に特定される。
In the present embodiment, by applying the
また、本実施形態では、スマートグラス100Aのディスプレイ130を光学シースルー型としている。このため、本実施形態では、装着者Pの視界を妨げずに、テキストデータ23を装着者Pに視認させることができる。
Further, in this embodiment, the
なお、ディスプレイ130は、光学シースルー型でなくてもよく、カメラ110が取得した画像データが示す画像と、テキストデータ23とが重畳されて表示されてもよい。
Note that the
また、スマートグラス100Aは、例えば、網膜走査型の眼鏡型投影装置であってよい。この場合には、ディスプレイ130が不要であり、装着者Pの網膜に、光学系により直接テキストデータ23を投影させればよい。
Also, the
次に、図5を参照して、本実施形態のスマートグラス100Aの機能について説明する。図5は、スマートグラスの機能について説明する図である。具体的には、図5は、スマートグラス100Aの有する情報処理端末200Aの機能を示す。
Next, with reference to FIG. 5, functions of the
本実施形態の情報処理端末200Aは、音声認識処理部230を有する。音声認識処理部230は、映像入力部231、音声入力部232、注目話者特定部240、口唇特徴量取得部250、音響特徴量取得部260、人物識別部270、マルチモーダル認識部280(第一の発話認識部)、音声認識部290(第二の発話認識部)、発話内容認識結果出力部233を含む。
200 A of information processing terminals of this embodiment have the speech-
映像入力部231は、カメラ110が撮像した画像データ(動画データ)を取得する。音声入力部232は、マイク120により集音された音声データを取得する。このとき、音声入力部232は、音声データを、所定の条件でサンプリングしたモノラルの非圧縮データとして取得してもよい。
The
発話内容認識結果出力部233は、マルチモーダル認識部280による発話内容の認識結果であるテキストデータや、音声認識部290による発話内容の認識結果であるテキストデータを、ディスプレイ130に表示させる。
The utterance content recognition
注目話者特定部240は、映像入力部231が取得した動画データから、注目話者を特定する。注目話者特定部240は、画像変換部241、顔領域認識部242、顔領域検出モデル243、顔位置判定部244、口唇領域抽出部245、顔特徴点推定モデル246、注目話者決定部247を有する。
The attention
画像変換部241は、動画データを時系列のフレーム画像に変換する。なお、画像変換部241は、処理の高速化のため、RGBの画像データをグレースケールの画像データに変換してもよいし、画素数を変換してもよい。
The
顔領域認識部242は、顔領域検出モデル243を用いて、取得した時系列のフレーム画像において、顔画像を含む領域(顔領域)を認識する。顔領域検出モデル243は、画像から顔画像を検出するモデルであり、予め大量のデータを使用してニューラルネットワークを学習させたモデルである。なお、ここで検出された顔画像は、注目話者の候補となる人物の顔画像である。
The face
顔位置判定部244は、カメラ110が取得した画像データが示す画像における顔領域の位置を判定し、顔領域の位置を示す情報を取得する。
The face
口唇領域抽出部245は、顔特徴点推定モデル246を用いて、顔画像のうち、口唇部分の画像を含む口唇領域を検出し、顔領域内の顔画像から、口唇領域内の画像を抽出する。
A lip
顔特徴点推定モデル246は、顔画像から、目や鼻、口唇の輪郭の座標を取得し、口唇周辺の座標を検出するモデルである。
The face feature
なお、本実施形態では、口唇領域抽出部245は、口唇領域の画像を抽出するものとしたが、これに限定されない。口唇領域抽出部245は、例えば、顔画像において、口唇部分の画像が、人物の手などによって隠されていた場合には、目や鼻等の顔のパーツと対応した領域の画像を抽出してもよい。目や鼻等の顔のパーツと対応した領域は、顔特徴点推定モデル246によって検出されてよい。
In this embodiment, the lip
注目話者決定部247は、画像における人物の顔領域の位置、及び、口唇領域内の画像(動画)が示す口の動きに基づき、注目話者を決定する。注目話者特定部240の処理の詳細は後述する。
The attention
本実施形態の口唇特徴量取得部250は、カメラ110が取得した画像における、口唇領域内の画像から、口の動きを示す口唇特徴量を取得する。
The lip feature
口唇特徴量取得部250は、口唇画素数変換部251、口唇特徴量算出部252、口唇特徴量算出モデル253を有する。
The lip feature
口唇画素数変換部251は、抽出された口唇領域内の画像を、所定の大きさの画像に変換する。言い換えれば、口唇画素数変換部251は、カメラ110と、撮影された人物との距離によって大きさが異なる口唇領域内の画像を、一律の大きさの画像となるように、拡大、または縮小する。
A lip pixel
口唇特徴量算出部252は、口唇特徴量算出モデル253を用いて、口唇特徴量を算出する。具体的には、口唇特徴量算出部252は、大きさが変更された時系列の口唇領域内の画像を示す動画データを、口唇特徴量算出モデル253に入力し、発話内容の認識を行う際に効果的な口唇特徴量を算出する。唇特徴量とは、口唇領域内の動画データを口唇特徴量算出モデル253に入力して、口唇特徴量算出モデル253から出力される多次元のベクトルである。
The lip feature
音響特徴量取得部260は、音声入力部232が取得した音声データから、人物による発話が行われている区間である発話区間を検出し、発話区間の音声データの音響特徴量を取得する。
The acoustic feature
音響特徴量取得部260は、音声発話区間検出部261、音声発話区間検出モデル262、音響特徴量算出部263を有する。
The acoustic feature
音声発話区間検出部261は、音声発話区間検出モデル262を用いて、入力された音声データから、発話区間を検出する。
The voice utterance
音響特徴量算出部263は、発話区間として検出された区間の音声波形から、音響特徴量を算出する。音響特徴量は、例えば、メル周波数ケプストラム係数(MFCC)や、対数メルフィルタバンク特徴量(FBANK)や対数メルフィルタ等であってよい。
The acoustic feature
人物識別部270は、音響特徴量から、発話した人物を識別するための情報を取得する。人物識別部270は、話者埋め込み情報算出部271、話者埋め込み情報算出モデル272、画面外話者推定部273を有する。
The
話者埋め込み情報算出部271は、話者埋め込み情報算出モデル272を用いて、発話者の声質をあらわす話者埋め込み情報(エンべディング)を算出する。話者埋め込み情報とは、発話者を特定するための情報であり、例えば、i-vectorやd-vector、x-vector等の方式によって抽出された一定次元数の特徴量であってよい。
The speaker-embedded
画面外話者推定部273は、スマートグラス100Aの装着者Pの顔の向きが変化し、注目話者の画像がカメラ110が取得した画像に含まれなくなった場合に、話者埋め込み情報を用いて発話者を推定する。画面外話者推定部273の処理の詳細は後述する。
The out-of-screen
マルチモーダル認識部280は、口唇特徴量と音響特徴量とを用いて、注目話者の発話内容を認識する。マルチモーダル認識部280は、特徴量統合部281、マルチモーダル発話内容認識部282、マルチモーダル発話内容認識モデル283を有する。
The
特徴量統合部281は、音響特徴量取得部260により取得された音響特徴量と、口唇特徴量取得部250により取得された口唇特徴量とを統合し、マルチモーダル特徴量とする。マルチモーダル特徴量とは、複数種類の特徴量を含む特徴量である。より具体的には、マルチモーダル特徴量とは、音響特徴量と口唇特徴量とを含む。
The feature
マルチモーダル発話内容認識部282は、マルチモーダル発話内容認識モデル283を用いて、発話内容を認識する。より具体的には、本実施形態のマルチモーダル発話内容認識部282は、音声データから抽出された音響特徴量と、動画データから抽出された口唇特徴量とを用いて発話内容の認識を行う。
A multimodal speech
音声認識部290は、音声入力部232が取得した音声データから、音響特徴量取得部260が取得した音響特徴量に基づき、発話内容を認識する。音声認識部290は、音声発話内容認識部291、音声発話内容認識モデル292を有する。
The
音声発話内容認識部291は、注目話者とされた人物の口唇特徴量が取得されなかった場合に、音響特徴量を用いた発話内容の認識を行う。具体的には、音声発話内容認識部291は、音声発話内容認識モデル292を用いて、音声データに基づく発話内容の認識を行い、認識結果を発話内容認識結果出力部233に渡す。
The voice utterance
なお、本実施形態では、口唇領域抽出部245により抽出された画像が、口以外の顔のパーツの画像と対応した領域である場合には、口唇特徴量が算出されなかったものとしてもよい。
In this embodiment, if the image extracted by the lip
なお、本実施形態において、顔領域検出モデル243、顔特徴点推定モデル246、音声発話区間検出モデル262、話者埋め込み情報算出モデル272は、公知技術を用いたモデルであってよい。
In the present embodiment, the face
次に、図6を参照して、本実施形態のスマートグラス100Aの動作について説明する。図6は、第一の実施形態のスマートグラスの動作を説明する第一のフローチャートである。
Next, operation of the
図6の処理は、例えば、スマートグラス100Aの装着者Pにより、注目話者の発話内容の認識処理の開始を指示する操作が行われた場合に、実行される。
The process of FIG. 6 is executed, for example, when the wearer P of the
本実施形態のスマートグラス100Aにおいて、情報処理端末200Aは、映像入力部231と音声入力部232とにより、画像データ(動画データ)と音声データとを取得する(ステップS601)。
In the
続いて、情報処理端末200Aは、音声発話区間検出部261により、発話区間を検出する処理を行う(ステップS602)。
Subsequently, the
ステップS602において、発話区間が検出されない場合、情報処理端末200Aは、ステップS601へ戻る。
In step S602, when the speech period is not detected, the
ステップS602において、発話区間が検出されると、情報処理端末200Aは、ステップS605からステップS607までの処理を、顔画像が検出された人数分、繰り返す(ステップS604)。
When the speech period is detected in step S602, the
情報処理端末200Aは、顔領域認識部242により、映像入力部231が取得した画像データが示す画像において、顔画像が含まれる顔領域を検出する(ステップS605)。
200 A of information processing terminals detect the face area containing a face image in the image which the image data which the
続いて、情報処理端末200Aは、口唇領域抽出部245により、顔領域の中から、口唇領域を検出する(ステップS606)。なお、口唇領域抽出部245は、顔領域において、口唇領域が検出されなかった場合には、口以外の顔のパーツ(目や鼻等)の画像と対応した領域を検出すればよい。つまり、口唇領域抽出部245は、顔領域から、顔の一部の画像と対応した領域を検出すればよい。
Subsequently, the
また、本実施形態において、口唇領域を検出することとは、顔領域内の顔画像から、口唇領域内の口唇画像を抽出することと同義であってよい。 Further, in the present embodiment, detecting the lip region may be synonymous with extracting the lip image within the lip region from the face image within the face region.
続いて、情報処理端末200Aは、注目話者決定部247により、注目話者を選定する(ステップS607)。ステップS607の処理の詳細は後述する。
Subsequently, the
情報処理端末200Aは、ステップS605からステップS607までの処理を人数分繰り返す(ステップS608)。本実施形態では、この処理を繰り返すことで、注目話者が決定される。 200 A of information processing terminals repeat the process from step S605 to step S607 for the number of people (step S608). In this embodiment, the speaker of interest is determined by repeating this process.
続いて、情報処理端末200Aは、音響特徴量取得部260により、注目話者に特定された人物の音声データから、音響特徴量を算出する(ステップS609)。
Next, the
続いて、情報処理端末200Aは、話者埋め込み情報算出部271により、注目話者の話者埋め込み情報を算出する(ステップS610)。なお、話者埋め込み情報算出部271は、注目話者が決定された後は、注目話者の話者埋め込み情報を保持していてもよい。また、話者埋め込み情報算出部271は、注目話者が注目話者でなくなったときに、保持していた話者埋め込み情報を消去してもよい。
Subsequently, the
続いて、情報処理端末200Aは、口唇特徴量取得部250により、口唇領域が検出されているか否かを判定する(ステップS611)。言い換えれば、情報処理端末200Aは、口唇領域抽出部245により抽出された画像が、口唇領域内の画像であるか否かを判定する。
Subsequently, the
ステップS611において、口唇領域が検出されていない場合、情報処理端末200Aは、音声認識部290により、音声データによる発話内容の認識を行い(ステップS612)、後述するステップS615へ進む。
In step S611, if the lip region is not detected, the
ステップS611において、口唇領域が検出された場合、情報処理端末200Aは、口唇特徴量取得部250により、口唇領域内の画像から口唇特徴量を算出する(ステップS613)。
When the lip area is detected in step S611, the
続いて、情報処理端末200Aは、マルチモーダル認識部280により、ステップS609で算出した音響特徴量と、ステップS613で算出した口唇特徴量とを用いて、発話内容の認識を行う(ステップS614)。
Subsequently, the
続いて、情報処理端末200Aは、発話内容認識結果出力部233により、認識結果のテキストデータを出力し(ステップS615)、処理を終了する。言い換えれば、発話内容認識結果出力部233は、認識結果のテキストデータをディスプレイ130に表示させて、処理を終了する。
Subsequently, the
このように、本実施形態では、注目話者とされた人物の音声データのみを、発話内容の認識を行う音声データとする。 As described above, in the present embodiment, only the speech data of the person who is the target speaker is used as the speech data for recognizing the utterance content.
次に、図7を参照して、本実施形態の注目話者決定部247の処理について説明する。は、図7は、第一の実施形態のスマートグラスの動作を説明する第二のフローチャートである。図7では、図6のステップS607の処理の詳細を示している。
Next, with reference to FIG. 7, processing of the attention
本実施形態の情報処理端末200Aにおいて、注目話者決定部247は、ステップS605において、複数の顔領域が検出されたか否かを判定する(ステップS701)。
In the
ステップS701において、複数の顔領域が検出されない場合、つまり、検出された顔領域が1つであった場合、注目話者決定部247は、後述するステップS704へ進む。
If a plurality of face areas are not detected in step S701, that is, if only one face area is detected, the speaker-of-
ステップS701において、複数の領域が検出された場合、注目話者決定部247は、1の顔画像における口唇領域の中心のx座標と、映像入力部231が取得した画像データが示す画像の中心点のx座標との間の距離を算出する(ステップS702)。
In step S701, when a plurality of regions are detected, the speaker-of-
なお、口唇領域抽出部245により、口唇領域の代わりに、顔の一部の画像と対応する領域が抽出されている場合は、この領域の中心点のx座標を、口唇領域の中心のx座標の代わりに用いれば良い。
If the lip
続いて、注目話者決定部247は、算出した距離が、複数の顔領域について算出した距離のうち、最小であるか否かを判定する(ステップS703)。言い換えれば、注目話者決定部247は、算出した距離が前回算出した距離よりも小さいか否かを判定している。つまり、ここでは、カメラ110が撮像した画像の中心に最も近い人物を検出している。
Subsequently, the attention
ステップS703において、距離が最小でない場合、注目話者決定部247は、この顔領域と対応する人物は、注目話者に該当しないものとし(ステップS705)、処理を終了する。
If the distance is not the minimum in step S703, the attention
ステップS703において、距離が最小であった場合、注目話者決定部247は、口唇領域抽出部245により抽出された領域内の画像から、口唇が動いているか否かを判定する(ステップS704)。つまり、ここでは、注目話者決定部247は、顔領域と対応する人物が、発話をしているか否かを判定している。
If the distance is the minimum in step S703, the speaker-of-
ステップS704において、口唇が動いていない場合、注目話者決定部247は、ステップS705へ進む。口唇が動いていない場合とは、発話していないことを示す。
In step S704, if the lips are not moving, the attention
ステップS704において、口唇が動いている場合、注目話者決定部247は、この顔領域を注目話者の顔領域に選定し(ステップS706)、処理を終了する。
In step S704, if the lips are moving, the attention
以下に、図8を参照して、注目話者決定部247により注目話者の決定について、さらに説明する。図8は、第一の実施形態における注目話者の決定について説明する図である。
Determination of the attention speaker by the attention
図8に示す画像81は、映像入力部231が取得した画像データが示す画像である。また、画像81における点oは、画像81の中心点であり、中心点の座標は、(x1,y1)である。なお、本実施形態の中心点oの座標は、例えば、画像81の左上の頂点を原点としたときの座標であってよい。
An
図8では、図6のステップS605において、人物Aの顔領域と、人物Bの顔領域とが検出された場合を示している。この場合、情報処理端末200Aは、図6のステップS606において、各顔領域から口唇領域を検出する。図8の例では、人物Aの顔領域から口唇領域Raが抽出され、人物Bの顔領域から口唇領域Rbが抽出されている。
FIG. 8 shows a case where the face area of person A and the face area of person B are detected in step S605 of FIG. In this case, the
ここで、注目話者決定部247は、例えば、始めに人物Bの顔領域を選択し、口唇領域Rbの中心点のx座標と、中心点oのx座標との距離Lbを算出する。このとき、距離Lbは、最小であるため、人物Bの口唇が動いている場合には、人物Bを注目話者に選定する。
Here, for example, the attention
次に、注目話者決定部247は、人物Aの顔領域を選択し、口唇領域Raの中心点のx座標と、中心点oのx座標との距離Laを算出する。このとき、距離Laは、距離Lbよりも小さい。したがって、注目話者決定部247は、人物Bを注目話者から除外し、人物Aの口唇が動いている場合には、人物Aを注目話者に決定する。
Next, the attention
このように、本実施形態では、カメラ110が撮像した画像の中心と最も近い位置に顔画像が検出された人物を、注目話者に特定する。カメラ110が撮像した画像の中心とは、言い換えれば、スマートグラス100Aの装着者の視線方向である。つまり、本実施形態では、スマートグラス100Aの装着者の視線方向に最も近い人物を、注目話者に決定する。そして、本実施形態では、注目話者による発話のみをテキストデータに変換する。
As described above, in this embodiment, a person whose face image is detected at a position closest to the center of the image captured by the
したがって、本実施形態によれば、カメラ110による撮像された画像に複数の人物が含まれている場合であっても、スマートグラス100Aの利用者が注目している人物を特定し、特定された人物の発話内容のみをディスプレイ130に表示させることができる。言い換えれば、音声認識システム100の利用者が注目した特定の発話者の発話内容を、利用者の視界を妨げることなく、適切に表示させることができる。
Therefore, according to the present embodiment, even if the image captured by the
また、本実施形態では、注目話者の発話内容のみをディスプレイ130に表示させるため、ディスプレイ130に表示される情報の情報量が過剰になることを抑制できる。
Further, in this embodiment, only the utterance content of the speaker of interest is displayed on the
また、本実施形態では、注目話者の口唇特徴量と音響特徴量との両方を用いて発話内容の認識を行うため、発話内容の認識の精度を向上させることができる。 In addition, in this embodiment, since the utterance content is recognized using both the lip feature amount and the acoustic feature amount of the speaker of interest, accuracy in recognizing the utterance content can be improved.
さらに、本実施形態では、口唇領域が抽出されない場合には、顔の一部の画像と対応する領域を代用するため、顔領域から口唇領域が抽出されない場合であっても、注目話者を特定することができる。 Furthermore, in the present embodiment, when the lip region is not extracted, a region corresponding to a partial image of the face is used as a substitute. can do.
次に、図9を参照して、注目話者が決定された後のスマートグラス100Aの動作について説明する。図9は、第一の実施形態のスマートグラスの動作を説明する第三のフローチャートである。図9に示す処理は、図6の処理により、注目話者が決定された後に、定期的に実行される処理である。
Next, the operation of the
本実施形態のスマートグラス100Aにおいて、情報処理端末200Aは、音声発話区間検出部261により、発話区間を検出する処理を行う(ステップS901)。続いて、情報処理端末200Aは、音響特徴量算出部263により、発話区間において取得された音声データから、音響特徴量を算出する(ステップS902)。
In the
続いて、情報処理端末200Aは、話者埋め込み情報算出部271により、発話区間に発話した人物の話者埋め込み情報を算出する(ステップS903)。
Next, the
続いて、情報処理端末200Aは、画面外話者推定部273により、現在の注目話者の画像が、映像入力部231により取得された画像データが示す画像に含まれるか否かを判定する(ステップS904)。つまり、ここでは、注目話者が、装着者の視線方向に留まっているか否かを判定している。
Next, the
なお、このとき、画面外話者推定部273は、例えば、映像入力部231により取得された画像データが示す画像に対して顔認識処理を行い、注目話者の顔画像が含まれるか否かを判定してもよい。
At this time, the off-screen
ステップS904において、注目話者の画像が含まれない場合、情報処理端末200Aは、後述するステップS909へ進む。
If the image of the speaker of interest is not included in step S904, the
注目話者の画像が含まれない場合とは、注目話者が移動したり、装着者が頭の向きを変えることにより、注目話者がスマートグラス100Aの装着者の視界から消える、又は、視界の隅へ移動することを示す。
The case where the image of the speaker of interest is not included means that the speaker of interest disappears from the field of view of the wearer of the
ステップS904において、注目話者の画像が含まれる場合、情報処理端末200Aは、口唇領域抽出部245により、注目話者の口唇領域が検出されたか否かを判定する(ステップS905)。ステップS905において、口唇領域が検出されない場合、情報処理端末200Aは、後述するステップS911へ進む。
If the image of the speaker of interest is included in step S904, the
ステップS905において、口唇領域が検出された場合、情報処理端末200Aは、口唇特徴量取得部250により、口唇領域から抽出された画像から、口唇特徴量を算出し(ステップS906)、ステップS907へ進む。
In step S905, when the lip area is detected, the
図9のステップS907とステップS908の処理は、図6のステップS614とステップS615の処理と同様であるから、説明を省略する。 The processing in steps S907 and S908 in FIG. 9 is the same as the processing in steps S614 and S615 in FIG. 6, so description thereof will be omitted.
ステップS904において、注目話者が画像に含まれない場合、情報処理端末200Aは、人物識別部270の画面外話者推定部273により、注目話者が画像に含まれなくなってから、10秒未満であるか否かを判定する(ステップS909)。なお、10秒は、予め設定される設定時間の一例であり、これに限定されるものではない。
In step S904, if the target speaker is not included in the image, the
ステップS909において、10秒未満である場合、画面外話者推定部273は、ステップS903で算出した話者埋め込み情報が、注目話者の話者埋め込み情報と一致するか否かを判定する(ステップS910)。注目話者の話者埋め込み情報とは、図6のステップS610で算出される話者埋め込み情報である。
If it is less than 10 seconds in step S909, the off-screen
ここで、画面外話者推定部273は、例えば、2つの話者埋め込み情報のコサイン類似度等を算出し、算出した値が所定の閾値以上である場合に、両者が一致するものとしてもよい。
Here, the off-screen
ステップS910において、両者が一致している場合、情報処理端末200Aは、音声認識部290により、ステップS902で算出された音響特徴量を用いた音声発話認識を行い(ステップS911)、ステップS908へ進む。
If both match in step S910, the
ステップS910において、両者が一致していない場合、情報処理端末200Aは、後述するステップS912に進む。
If the two do not match in step S910, the
ステップS909において、10秒未満でない場合、つまり、注目話者がスマートグラス100Aの装着者の視線方向から外れてから10秒以上が経過した場合、情報処理端末200Aは、注目話者の決定を解除し(ステップS912)、処理を終了する。
In step S909, if it is not less than 10 seconds, that is, if 10 seconds or more have passed since the speaker of interest left the line-of-sight direction of the wearer of the
言い換えれば、本実施形態では、映像入力部231により取得された画像データが示す画像から、注目話者の顔画像が検出されない状態が設定時間以上継続した場合に、注目話者の決定を解除する。
In other words, in this embodiment, when the face image of the target speaker is not detected from the image represented by the image data acquired by the
注目話者の決定を解除することとは、言い換えれば、注目話者が決定された状態から、注目話者が選択されていない初期状態に戻ることを示す。 Canceling the determination of the speaker of interest means, in other words, returning from the state in which the speaker of interest has been determined to the initial state in which the speaker of interest has not been selected.
本実施形態では、このように、注目話者がスマートグラス100Aの装着者の視線方向から一時的に外れた場合であっても、音声から注目話者の発話であるか否かを判定し、発話内容の認識結果をディスプレイ130に表示させることができる。
In this embodiment, in this way, even if the speaker of interest temporarily deviates from the line-of-sight direction of the wearer of the
以下に、図10乃至図17を参照し、スマートグラス100Aの動作の事例について説明する。
Examples of operations of the
図10は、スマートグラスの動作の事例を説明する第一の図である。図10では、人物Aがスマートグラス100Aの装着者Pの視線方向に位置しており、カメラ110が撮像した画像において人物Aのみの顔領域が検出される状態を示す。
FIG. 10 is a first diagram illustrating an example of operation of smart glasses. FIG. 10 shows a state in which person A is positioned in the line-of-sight direction of person P wearing
この場合、スマートグラス100Aは、カメラ110が撮像した画像から1つの顔領域を検出し、この顔領域と対応する人物Aを注目話者に特定する。そして、スマートグラス100Aは、口唇領域22を検出し、音響特徴量と口唇特徴量とを用いたマルチモーダル発話認識処理を行い、認識結果のテキストデータ23をディスプレイ130に表示させる。
In this case, the
図11は、スマートグラスの動作の事例を説明する第二の図である。図11では、注目話者とされた人物Aがスマートグラス100Aの装着者Pの視線方向から外れてから、所定の設定時間内(例えば10秒)である状態を示す。
FIG. 11 is a second diagram illustrating an example of operation of smart glasses. FIG. 11 shows a state in which a predetermined set time (for example, 10 seconds) has passed since person A, who is the speaker of interest, has left the line-of-sight direction of person P wearing
この場合、スマートグラス100Aは、人物Aの音声データのみで、人物Aを注目話者と判定し、音声データから算出した音響特徴量を用いた音声認識処理を行い、認識結果のテキストデータ23aをディスプレイ130に表示させる。
In this case, the
図12は、スマートグラスの動作の事例を説明する第三の図である。図12では、注目話者とされた人物Aがスマートグラス100Aの装着者Pの視線方向から外れてから所定の設定時間以上が経過した状態を示す。
FIG. 12 is a third diagram illustrating an example of operation of smart glasses. FIG. 12 shows a state in which a predetermined set time or more has elapsed after person A, who is the speaker of interest, has left the line-of-sight direction of person P wearing
この場合、スマートグラス100Aは、人物Aに対する注目話者の決定を解除し、注目話者が決定されていない初期状態に戻る。したがって、ディスプレイ130には何も表示されない。
In this case, the
図13は、スマートグラスの動作の事例を説明する第四の図である。図13では、人物Aがスマートグラス100Aの装着者Pの視線方向に位置しており、カメラ110が撮像した画像において人物Aのみの顔領域が検出され、且つ、人物Aの口唇領域が検出されない状態を示す。
FIG. 13 is a fourth diagram illustrating an example of operation of smart glasses. In FIG. 13, person A is positioned in the line-of-sight direction of person P wearing
この場合、スマートグラス100Aは、カメラ110が撮像した画像から1つの顔領域を検出し、この顔領域と対応する人物Aを注目話者に特定する。また、スマートグラス100Aは、人物Aの口唇領域が検出されないため、音声データから算出した音響特徴量を用いた音声認識処理を行い、認識結果のテキストデータ23aをディスプレイ130に表示させる。
In this case, the
図14は、スマートグラスの動作の事例を説明する第五の図である。図14では、カメラ110が撮像した画像において人物Aと人物Bの顔領域が検出された状態を示す。
FIG. 14 is a fifth diagram explaining an example of operation of smart glasses. FIG. 14 shows a state in which face areas of person A and person B are detected in an image captured by
この場合、スマートグラス100Aは、人物Aの口唇領域の中心点のx座標と、カメラ110が撮像した画像の中心点のx座標との距離と、人物Bの口唇領域の中心点のx座標と、カメラ110が撮像した画像の中心点のx座標との距離とを算出する。
In this case, the
次に、スマートグラス100Aは、距離が小さい方の人物を注目話者に決定する。図14では、人物Aを注目話者に決定する。そして、スマートグラス100Aは、人物Aの口唇領域22を検出し、音響特徴量と口唇特徴量とを用いたマルチモーダル発話認識処理を行い、認識結果のテキストデータ23をディスプレイ130に表示させる。
Next, the
図15は、スマートグラスの動作の事例を説明する第六の図である。図15では、カメラ110が撮像した画像において人物Aと人物Bのうち、カメラ110が撮像した画像の中心点に近い人物が、装着者Pの頭の動き等により、人物Aから人物Bに変わった場合を示す。
FIG. 15 is a sixth diagram illustrating an example of operation of smart glasses. In FIG. 15, in the image captured by the
この場合、スマートグラス100Aは、人物Bの口唇領域22Bを検出し、音響特徴量と口唇特徴量とを用いたマルチモーダル発話認識処理を行い、認識結果のテキストデータ23Bをディスプレイ130に表示させる。
In this case, the
図16は、スマートグラスの動作の事例を説明する第七の図である。図16では、カメラ110が撮像した画像において人物Aと人物Bのうち、カメラ110が撮像した画像の中心点に近い人物Aの口元が隠されている状態を示す。
FIG. 16 is a seventh diagram illustrating an example of operation of smart glasses. FIG. 16 shows a state in which the mouth of person A, who is closer to the center point of the image captured by
この場合、スマートグラス100Aは、人物Aの口唇領域の中心点のx座標の代わりに、人物Aの顔画像の一部の領域の中心点のx座標を求め、このx座標と、カメラ110が撮像した画像の中心点のx座標との距離を算出する。次に、スマートグラス100Aは、この距離に基づき、人物Aを注目話者に決定する。
In this case, the
そして、スマートグラス100Aは、人物Aの音声データから算出した音響特徴量を用いた音声認識処理を行い、認識結果のテキストデータ23aをディスプレイ130に表示させる。
Then, the
このように、本実施形態では、スマートグラス100Aの装着者の視線方向に複数の人物が存在する場合や、装着者が注目している人物の口元が隠れている場合等であっても、注目話者の発話内容を示すテキストデータをディスプレイ130に表示させることができる。
As described above, in the present embodiment, even when a plurality of people are present in the line-of-sight direction of the wearer of the
次に、図17を参照して、本実施形態のスマートグラス100Aの有する発話内容の認識について説明する。図17は、第一の実施形態の発話内容の認識について説明する図である。
Next, with reference to FIG. 17, recognition of utterance content of the
本実施形態のスマートグラス100Aの音声認識処理部230は、注目話者として特定された人物の口唇領域内から抽出された動画を口唇特徴量算出部252に入力し、口唇特徴量171を取得する。また、本実施形態では、注目話者として特定された人物の音声波形を音響特徴量算出部263に入力し、音響特徴量172を取得する。
The voice
そして、音声認識処理部230は、特徴量統合部281において、口唇特徴量171と、音響特徴量172とを結合させ、マルチモーダル特徴量173を得る。
Then, the speech
次に、音声認識処理部230は、マルチモーダル特徴量173をマルチモーダル発話内容認識部282に入力し、マルチモーダル発話内容認識モデル283を用いて、発話内容を示すテキストデータを生成し、テキストデータを発話内容認識結果出力部233に対して出力する。
Next, the speech
また、本実施形態では、口唇が隠れていたり、カメラ110が撮像した画像に注目話者の画像が含まれず、口唇領域内の画像を利用できない場合、音響特徴量算出部263で抽出した音響特徴量172を音声発話内容認識部291に入力する。音声発話内容認識部291は、音声発話内容認識モデル292を用いて、発話内容を示すテキストデータを生成し、テキストデータを発話内容認識結果出力部233に対して出力する。
In addition, in the present embodiment, when the lips are hidden or the image captured by the
このように、本実施形態では、注目話者の口唇領域の検出の可否に応じて、発話内容の認識処理の方式を切り換えるため、音声認識の精度を向上させることができる。 As described above, in this embodiment, the accuracy of speech recognition can be improved because the speech content recognition processing method is switched depending on whether or not the lip area of the speaker of interest can be detected.
また、本実施形態において、口唇特徴量算出モデル253と、マルチモーダル発話内容認識モデル283と、音声発話内容認識モデル292とは、口唇領域の動画データと、音声データと、正解となるテキストデータと、を学習データとして、ニューラルネットワークを学習させた学習済みモデルである。
Further, in this embodiment, the lip feature
また、本実施形態では、発話区間毎に、音声データを取得して発話内容の認識を行うものとしたが、これに限定されない。本実施形態では、例えば、同時に複数の人物の音声データが取得された場合には、画像データから検出された人物の顔画像に基づき、注目話者の音声データのみを選択するようにしてもよい。 Further, in the present embodiment, voice data is acquired for each utterance period and the content of utterance is recognized, but the present invention is not limited to this. In this embodiment, for example, when the voice data of a plurality of persons are acquired at the same time, only the voice data of the target speaker may be selected based on the face image of the person detected from the image data. .
(第二の実施形態)
以下に、図面を参照して、第二の実施形態について説明する。第二の実施形態は、第一の実施形態のスマートグラス100Aを適用した翻訳システムである。
(Second embodiment)
A second embodiment will be described below with reference to the drawings. The second embodiment is a translation system to which the
図18は、第二の実施形態の翻訳システムのシステム構成の一例を示す図である。本実施形態の翻訳システム500は、スマートグラス100Aと、自動翻訳装置700とを含む。スマートグラス100Aと自動翻訳装置700とは、例えば、ネットワーク等を介して接続される。
FIG. 18 is a diagram showing an example of the system configuration of the translation system of the second embodiment. A
本実施形態の自動翻訳装置700は、第一の言語のテキストデータと、言語の選択とを受け付けると、第一の言語のテキストデータを、選択された言語(第二の言語)に翻訳し、第二の言語のテキストデータを出力する。
When the
図18に示す翻訳システム500では、スマートグラス100Aにおいて、画像データと音声データとに基づき、注目話者の発話内容を認識した結果のテキストデータを、第一の言語のテキストデータとして、自動翻訳装置700に送信する。このとき、スマートグラス100Aは、予め第二の言語の選択を受け付けていてもよい。その場合、スマートグラス100Aは、第一の言語のテキストデータと共に第二の言語を示す情報を自動翻訳装置700へ送信する。
In the
自動翻訳装置700は、第一の言語のテキストデータと第二の言語を示す情報とを受け付けて、第一の言語のテキストデータを第二の言語のテキストデータに変換し、スマートグラス100Aに送信する。
The
スマートグラス100Aは、自動翻訳装置700から受信した第二の言語のテキストデータをディスプレイ130に表示させる。
本実施形態では、このように、スマートグラス100Aと自動翻訳装置700とを連携させることで、スマートグラス100Aの装着者に対し、注目話者が使用する第一の言語とは異なる第二の言語で、注目話者の発話内容を表示させることができる。
In the present embodiment, by linking the
(第三の実施形態)
以下に、図面を参照して、第三の実施形態について説明する。第三の実施形態は、第一の実施形態のスマートグラス100Aを適用した議事録作成システムである。
(Third embodiment)
A third embodiment will be described below with reference to the drawings. The third embodiment is a minutes creation system to which the
図19は、第三の実施形態の発話内容記録システムのシステム構成の一例を示す図である。本実施形態の発話内容記録システム600は、スマートグラス100Aと、発話内容記録装置700Aとを含む。スマートグラス100Aと発話内容記録装置700Aとは、例えば、ネットワーク等を介して接続される。
FIG. 19 is a diagram showing an example of the system configuration of the utterance content recording system of the third embodiment. A speech
本実施形態では、スマートグラス100Aは、例えば、教育機関の講義等において、教師の発話内容をテキストデータとして保持する用途等に用いられる。この場合、スマートグラス100Aの装着者は、講義を行っている教師Tに対して視線方向を向けるだけで、教師の発話内容をテキストデータとして発話内容記録装置700Aの有する記憶部に格納することができる。
In the present embodiment, the
なお、本実施形態では、例えば、講堂等のようなスペースに設置された壇上に、複数の人物が存在する場合等に、特定の人物の発話内容をテキストデータとして保存する用途にも利用することができる。 In addition, in this embodiment, for example, when a plurality of people are present on a stage set up in a space such as an auditorium, the utterance contents of a specific person can also be used for saving text data. can be done.
本実施形態では、このように、スマートグラス100Aを発話内容記録装置700Aと連携させることで、例えば、複数の人物がランダムな順番に発話するような場面であっても、注目話者の発話内容のみをテキストデータとして保存することができる。
In this embodiment, by linking the
なお、スマートグラス100Aは、上述した実施形態以外にも適用することができる。例えば、スマートグラス100Aは、装着者Pの聴覚に障害がある場合等に有用である。
Note that the
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。 Each function of the embodiments described above may be implemented by one or more processing circuits. Here, the "processing circuit" in this specification means a processor programmed by software to perform each function, such as a processor implemented by an electronic circuit, or a processor designed to perform each function described above. devices such as ASICs (Application Specific Integrated Circuits), DSPs (digital signal processors), FPGAs (field programmable gate arrays) and conventional circuit modules.
また、実施形態に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。 Moreover, the devices described in the embodiments are only representative of one of several computing environments for implementing the embodiments disclosed herein.
ある実施形態では、情報処理装置200(情報処理端末200A)は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。同様に、情報処理装置200は、互いに通信するように構成された複数のコンピューティングデバイスを含むことができる。
In one embodiment, the information processing apparatus 200 (
さらに、情報処理装置200は、開示された処理ステップを様々な組み合わせで共有するように構成できる。例えば、情報処理装置200によって実行されるプロセスは、他の情報処理装置によって実行され得る。同様に、情報処理装置200の機能は、他の情報処理装置によって実行することができる。また、情報処理装置と他の情報処理装置の各要素は、1つの情報処理装置にまとめられていても良いし、複数の装置に分けられていても良い。
Further, the
以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。 Although the present invention has been described above based on each embodiment, the present invention is not limited to the requirements shown in the above embodiments. These points can be changed without impairing the gist of the present invention, and can be determined appropriately according to the application form.
100 音声認識システム
100A スマートグラス
110 カメラ
120 マイク
130 ディスプレイ
200 情報処理装置
200A 情報処理端末
230 音声認識処理部
231 映像入力部
232 音声入力部
233 発話内容認識結果出力部
240 注目話者特定部
250 口唇特徴量取得部
260 音響特徴量取得部
270 人物識別部
280 マルチモーダル認識部
290 音声認識部
100
Claims (14)
前記映像データに含まれる音声データのうち、前記注目話者の音声データから変換されたテキストデータを表示装置に表示させる発話内容認識結果出力部と、を有する音声認識装置。 a speaker-of-interest determination unit that determines a speaker of interest based on a facial image of a person detected from an image represented by image data included in video data;
a speech recognition result output unit for displaying text data converted from the speech data of the speaker of interest among the speech data contained in the video data on a display device.
前記口唇領域内の画像を示す画像データと、前記注目話者の音声データとを用いて、前記注目話者の音声データをテキストデータに変換する第一の発話認識部を有する、請求項1記載の音声認識装置。 a lip region extraction unit for detecting a lip region including an image of the lip portion of the person from the face image of the person identified as the speaker of interest;
2. The apparatus according to claim 1, further comprising a first speech recognition unit that converts the speech data of the speaker of interest into text data by using the image data representing the image within the lip region and the speech data of the speaker of interest. voice recognition device.
前記注目話者の音声データを用いて、前記注目話者の音声データをテキストデータに変換する第二の発話認識部を有する、請求項2記載の音声認識装置。 When the lip region is not detected from the face image,
3. The speech recognition apparatus according to claim 2, further comprising a second speech recognition section for converting the speech data of the speaker of interest into text data by using the speech data of the speaker of interest.
前記映像データは、前記撮像装置により取得された映像データである、請求項1乃至3の何れか一項に記載の音声認識装置。 The display device is a spectacles-type display device, and the spectacles-type display device is provided with an imaging device that captures an image in a line-of-sight direction of the wearer wearing the spectacles-type display device,
4. The speech recognition device according to any one of claims 1 to 3, wherein said video data is video data acquired by said imaging device.
前記映像データに含まれる画像データが示す画像から、複数の顔画像が検出された場合に、前記顔画像の一部の領域の中心点と、前記映像データに含まれる画像データが示す画像の中心点との距離が最も小さい顔画像を、前記注目話者の顔画像とする、請求項1乃至4の何れか一項に記載の音声認識装置。 The attention speaker determination unit
When a plurality of face images are detected from an image indicated by image data included in the video data, a center point of a partial region of the face image and a center of the image indicated by the image data included in the video data 5. The speech recognition apparatus according to any one of claims 1 to 4, wherein the face image having the smallest distance from the point is set as the face image of the speaker of interest.
前記映像データに含まれる画像データが示す画像から、前記注目話者の顔画像が検出されない場合に、前記音声データの発話者を、前記音声データから算出した話者埋め込み情報に基づき推定する画面外話者推定部と、を有する、請求項1乃至5の何れか一項に記載の音声認識装置。 a speaker-embedded information calculation unit for calculating speaker-embedded information for identifying a person who uttered the voice data;
estimating the speaker of the audio data based on the embedded speaker information calculated from the audio data when the face image of the speaker of interest is not detected from the image indicated by the image data included in the video data; 6. The speech recognition device according to any one of claims 1 to 5, further comprising a speaker estimation unit.
前記映像データに含まれる画像データが示す画像から、前記注目話者の顔画像が検出されない状態が継続している期間が所定の設定時間未満であり、且つ、前記注目話者の顔画像が検出されない状態において取得した音声データから算出された話者埋め込み情報と、前記注目話者の話者埋め込み情報と、が一致している場合に、前記音声データを前記注目話者の音声データと判定する、請求項6記載の音声認識装置。 The off-screen speaker estimation unit
A period during which the facial image of the speaker of interest is not detected from the image indicated by the image data included in the video data is less than a predetermined set time, and the facial image of the speaker of interest is detected. When the speaker-embedded information calculated from the speech data acquired in a state where the speech data is not synchronized with the speaker-embedded information of the target speaker, the speech data is determined to be the speech data of the target speaker. 7. A speech recognition apparatus according to claim 6.
前記映像データに含まれる画像データが示す画像から、前記注目話者の顔画像が検出されない状態が、前記所定の設定時間以上継続した場合に、前記注目話者の決定を解除する、請求項7記載の音声認識装置。 The off-screen speaker estimation unit
8. The determination of the speaker of interest is canceled when the face image of the speaker of interest is not detected from the image represented by the image data included in the video data for the predetermined set time or longer. A speech recognition device as described.
前記情報処理装置は、
前記撮像装置によって取得された映像データに含まれる画像データが示す画像から検出された人物の顔画像に基づき、注目話者を決定する注目話者決定部と、
前記映像データに含まれる音声データのうち、前記注目話者の音声データから変換されたテキストデータを前記表示装置に表示させる発話内容認識結果出力部と、を有する、音声認識システム。 A speech recognition system comprising an information processing device, an imaging device capable of communicating with the information processing device, and a display device capable of communicating with the information processing device,
The information processing device is
a speaker-of-interest determination unit that determines a speaker of interest based on a face image of a person detected from an image represented by image data included in video data acquired by the imaging device;
an utterance content recognition result output unit that causes the display device to display text data converted from the speech data of the speaker of interest among the speech data included in the video data.
映像データに含まれる画像データが示す画像から検出された人物の顔画像に基づき、注目話者を決定し、
前記映像データに含まれる音声データのうち、前記注目話者の音声データから変換されたテキストデータを表示装置に表示させる、音声認識方法。 A speech recognition method by a computer, the computer comprising:
determining a speaker of interest based on a facial image of a person detected from an image represented by image data included in video data;
A speech recognition method, wherein text data converted from the speech data of the speaker of interest among the speech data included in the video data is displayed on a display device.
前記映像データに含まれる音声データのうち、前記注目話者の音声データから変換されたテキストデータを表示装置に表示させる、処理をコンピュータに実行させる、音声認識プログラム。 determining a speaker of interest based on a facial image of a person detected from an image represented by image data included in video data;
A speech recognition program for causing a computer to execute a process of displaying text data converted from the speech data of the speaker of interest among the speech data contained in the video data on a display device.
前記情報処理端末は、
前記撮像装置によって取得された映像データに含まれる画像データが示す画像から検出された人物の顔画像に基づき、注目話者を決定する注目話者決定部と、
前記映像データに含まれる音声データのうち、前記注目話者の音声データから変換されたテキストデータを前記表示装置に表示させる発話内容認識結果出力部と、を有する、スマートグラス。 Smart glasses having an information processing terminal, an imaging device connected to the information processing terminal, and a display device connected to the information processing terminal,
The information processing terminal
a speaker-of-interest determination unit that determines a speaker of interest based on a face image of a person detected from an image represented by image data included in video data acquired by the imaging device;
and an utterance content recognition result output unit that causes the display device to display text data converted from the speech data of the speaker of interest among the speech data included in the video data.
前記スマートグラスの有する前記情報処理端末は、
前記撮像装置によって取得された映像データに含まれる画像データが示す画像から検出された人物の顔画像に基づき、注目話者を決定する注目話者決定部と、
前記映像データに含まれる音声データのうち、前記注目話者の音声データから変換された第一の言語のテキストデータを前記翻訳装置に出力する発話内容認識結果出力部と、を有し、
前記翻訳装置において、前記第一の言語のテキストデータから翻訳された第二の言語のテキストデータを、前記表示装置に表示させる、翻訳システム。 Translation including smart glasses having an information processing terminal, an imaging device connected to the information processing terminal, and a display device connected to the information processing terminal, and a translation device capable of communicating with the smart glasses A system, wherein the information processing terminal included in the smart glasses includes:
a speaker-of-interest determination unit that determines a speaker of interest based on a face image of a person detected from an image represented by image data included in video data acquired by the imaging device;
an utterance content recognition result output unit that outputs text data in a first language converted from the speech data of the speaker of interest among the speech data included in the video data to the translation device;
A translation system in which text data in a second language translated from text data in the first language is displayed on the display device in the translation device.
前記スマートグラスの有する前記情報処理端末は、
前記撮像装置によって取得された映像データに含まれる画像データが示す画像から検出された人物の顔画像に基づき、注目話者を決定する注目話者決定部と、
前記映像データに含まれる音声データのうち、前記注目話者の音声データから変換されたテキストデータを前記表示装置に表示させ、且つ、前記テキストデータを前記発話内容記録装置に出力する発話内容認識結果出力部と、を有し、
前記発話内容記録装置は、
前記情報処理端末から出力された前記テキストデータを格納する記憶部を有する、発話内容記録システム。 Smart glasses having an information processing terminal, an imaging device connected to the information processing terminal, and a display device connected to the information processing terminal, and an utterance content recording device capable of communicating with the smart glasses. an utterance content recording system comprising: the information processing terminal included in the smart glasses,
a speaker-of-interest determination unit that determines a speaker of interest based on a face image of a person detected from an image represented by image data included in video data acquired by the imaging device;
An utterance content recognition result of causing the display device to display text data converted from the speech data of the speaker of interest among the voice data included in the video data, and outputting the text data to the utterance content recording device. an output unit;
The utterance content recording device is
An utterance content recording system having a storage unit for storing the text data output from the information processing terminal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022019554A JP2023117068A (en) | 2022-02-10 | 2022-02-10 | Speech recognition device, speech recognition method, speech recognition program, speech recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022019554A JP2023117068A (en) | 2022-02-10 | 2022-02-10 | Speech recognition device, speech recognition method, speech recognition program, speech recognition system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023117068A true JP2023117068A (en) | 2023-08-23 |
Family
ID=87579928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022019554A Pending JP2023117068A (en) | 2022-02-10 | 2022-02-10 | Speech recognition device, speech recognition method, speech recognition program, speech recognition system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023117068A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118658487A (en) * | 2024-08-16 | 2024-09-17 | 青岛歌尔视界科技有限公司 | Smart glasses control method, smart glasses, storage medium and program product |
JP2025048861A (en) * | 2023-09-20 | 2025-04-03 | ソフトバンクグループ株式会社 | system |
JP2025048875A (en) * | 2023-09-20 | 2025-04-03 | ソフトバンクグループ株式会社 | system |
-
2022
- 2022-02-10 JP JP2022019554A patent/JP2023117068A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2025048861A (en) * | 2023-09-20 | 2025-04-03 | ソフトバンクグループ株式会社 | system |
JP2025048875A (en) * | 2023-09-20 | 2025-04-03 | ソフトバンクグループ株式会社 | system |
CN118658487A (en) * | 2024-08-16 | 2024-09-17 | 青岛歌尔视界科技有限公司 | Smart glasses control method, smart glasses, storage medium and program product |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20250266053A1 (en) | Identifying input for speech recognition engine | |
JP6465077B2 (en) | Voice dialogue apparatus and voice dialogue method | |
JP2023117068A (en) | Speech recognition device, speech recognition method, speech recognition program, speech recognition system | |
JP6464449B2 (en) | Sound source separation apparatus and sound source separation method | |
CN110874137A (en) | Interaction method and device | |
CN110196914B (en) | Method and device for inputting face information into database | |
JP7388188B2 (en) | Speaker recognition system, speaker recognition method, and speaker recognition program | |
JPH09134194A (en) | Image recognition system for reading | |
WO2019171780A1 (en) | Individual identification device and characteristic collection device | |
JP2019086858A (en) | Customer service system and customer service method | |
CN114466178B (en) | Method and device for measuring synchronization between speech and image | |
CN114466179B (en) | Method and device for measuring synchronism of voice and image | |
KR20230001548A (en) | Device and method for real-time sign language interpretation with AR glasses | |
Meier et al. | Preprocessing of visual speech under real world conditions. | |
CN114494930A (en) | Training method and device for voice and image synchronism measurement model | |
US20250225995A1 (en) | Audio-visual speech recognition control for wearable devices | |
WO2021166811A1 (en) | Information processing device and action mode setting method | |
CN118351855A (en) | Voice information input method and device based on voice recognition | |
JPH0728488A (en) | Information processing method and device | |
JP7396590B2 (en) | Speaker identification method, speaker identification program, and speaker identification device | |
Tang et al. | Multimodal emotion recognition (MER) system | |
CN120295463B (en) | Multimodal audio-visual media remote interaction system | |
CN120430322B (en) | A cross-language conference translation method and smart glasses | |
WO2023165844A1 (en) | Circuitry and method for visual speech processing | |
CN117372586A (en) | Method for obtaining virtual digital speaker based on machine vision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20241205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20250911 |