JP2025058129A - system - Google Patents
system Download PDFInfo
- Publication number
- JP2025058129A JP2025058129A JP2023168026A JP2023168026A JP2025058129A JP 2025058129 A JP2025058129 A JP 2025058129A JP 2023168026 A JP2023168026 A JP 2023168026A JP 2023168026 A JP2023168026 A JP 2023168026A JP 2025058129 A JP2025058129 A JP 2025058129A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- data
- emotion
- past
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
Description
本開示の技術は、システムに関する。 The technology disclosed herein relates to a system.
特許文献1には、少なくとも一つのプロセッサにより遂行される、ペルソナチャットボット制御方法であって、ユーザ発話を受信するステップと、前記ユーザ発話を、チャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加するステップと前記プロンプトをエンコードするステップと、前記エンコードしたプロンプトを言語モデルに入力して、前記ユーザ発話に応答するチャットボット発話を生成するステップ、を含む、方法が開示されている。 Patent document 1 discloses a persona chatbot control method performed by at least one processor, the method including the steps of receiving a user utterance, adding the user utterance to a prompt including a description of the chatbot character and an associated instruction sentence, encoding the prompt, and inputting the encoded prompt into a language model to generate a chatbot utterance in response to the user utterance.
本発明は、音声出力が困難な状態にある人が、視線追跡と音声再現を組み合わせることで、過去の音声を再現することを可能にすることを解決しようとする。 The present invention aims to enable people who have difficulty outputting voice to reproduce past voices by combining gaze tracking and voice reproduction.
音声出力が困難な状態にある人の視線を追跡する手段と、追跡した視線情報をもとに過去の音声を再現する手段と、を含むシステム。 A system including a means for tracking the gaze of a person who is in a state where it is difficult to output speech, and a means for reproducing past speech based on the tracked gaze information.
以下、添付図面に従って本開示の技術に係るシステムの実施形態の一例について説明する。 An example of an embodiment of a system according to the disclosed technology is described below with reference to the attached drawings.
先ず、以下の説明で使用される文言について説明する。 First, let us explain the terminology used in the following explanation.
以下の実施形態において、符号付きのプロセッサ(以下、単に「プロセッサ」と称する)は、1つの演算装置であってもよいし、複数の演算装置の組み合わせであってもよい。また、プロセッサは、1種類の演算装置であってもよいし、複数種類の演算装置の組み合わせであってもよい。演算装置の一例としては、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、GPGPU(General-Purpose computing on Graphics Processing Units)、APU(Accelerated Processing Unit)、又はTPU(Tensor Processing Unit)等が挙げられる。 In the following embodiments, the signed processor (hereinafter simply referred to as "processor") may be one arithmetic device or a combination of multiple arithmetic devices. Furthermore, the processor may be one type of arithmetic device or a combination of multiple types of arithmetic devices. Examples of arithmetic devices include a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), a GPGPU (General-Purpose computing on Graphics Processing Units), an APU (Accelerated Processing Unit), or a TPU (Tensor Processing Unit).
以下の実施形態において、符号付きのRAM(Random Access Memory)は、一時的に情報が格納されるメモリであり、プロセッサによってワークメモリとして用いられる。 In the following embodiments, a signed random access memory (RAM) is a memory in which information is temporarily stored and is used by the processor as a working memory.
以下の実施形態において、符号付きのストレージは、各種プログラム及び各種パラメータ等を記憶する1つ又は複数の不揮発性の記憶装置である。不揮発性の記憶装置の一例としては、フラッシュメモリ(SSD(Solid State Drive))、磁気ディスク(例えば、ハードディスク)、又は磁気テープ等が挙げられる。 In the following embodiments, the coded storage is one or more non-volatile storage devices that store various programs, various parameters, etc. Examples of non-volatile storage devices include flash memory (SSD (Solid State Drive)), magnetic disks (e.g., hard disks), and magnetic tapes.
以下の実施形態において、符号付きの通信I/F(Interface)は、通信プロセッサ及びアンテナ等を含むインタフェースである。通信I/Fは、複数のコンピュータ間での通信を司る。通信I/Fに対して適用される通信規格の一例としては、5G(5th Generation Mobile Communication System)、Wi-Fi(登録商標)、又はBluetooth(登録商標)等を含む無線通信規格が挙げられる。 In the following embodiments, a communication I/F (Interface) with a code is an interface including a communication processor and an antenna, etc. The communication I/F controls communication between multiple computers. Examples of communication standards applied to the communication I/F include wireless communication standards including 5G (5th Generation Mobile Communication System), Wi-Fi (registered trademark), and Bluetooth (registered trademark).
以下の実施形態において、「A及び/又はB」は、「A及びBのうちの少なくとも1つ」と同義である。つまり、「A及び/又はB」は、Aだけであってもよいし、Bだけであってもよいし、A及びBの組み合わせであってもよい、という意味である。また、本明細書において、3つ以上の事柄を「及び/又は」で結び付けて表現する場合も、「A及び/又はB」と同様の考え方が適用される。 In the following embodiments, "A and/or B" is synonymous with "at least one of A and B." In other words, "A and/or B" means that it may be only A, only B, or a combination of A and B. In addition, in this specification, the same concept as "A and/or B" is also applied when three or more things are expressed by connecting them with "and/or."
[第1実施形態]
図1には、第1実施形態に係るデータ処理システム10の構成の一例が示されている。
[First embodiment]
FIG. 1 shows an example of the configuration of a
図1に示すように、データ処理システム10は、データ処理装置12及びスマートデバイス14を備えている。データ処理装置12の一例としては、サーバが挙げられる。
As shown in FIG. 1, the
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
The
スマートデバイス14は、コンピュータ36、受付装置38、出力装置40、カメラ42、及び通信I/F44を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、受付装置38、出力装置40、及びカメラ42も、バス52に接続されている。
The
受付装置38は、タッチパネル38A及びマイクロフォン38B等を備えており、ユーザ入力を受け付ける。タッチパネル38Aは、指示体(例えば、ペン又は指等)の接触を検出することにより、指示体の接触によるユーザ入力を受け付ける。マイクロフォン38Bは、ユーザの音声を検出することにより、音声によるユーザ入力を受け付ける。制御部46Aは、タッチパネル38A及びマイクロフォン38Bによって受け付けたユーザ入力を示すデータをデータ処理装置12に送信する。データ処理装置12では、特定処理部290(図2参照)が、ユーザ入力を示すデータを取得する。
The
出力装置40は、ディスプレイ40A及びスピーカ40B等を備えており、データをユーザが知覚可能な表現形(例えば、音声及び/又はテキスト)で出力することでデータをユーザに対して提示する。ディスプレイ40Aは、プロセッサ46からの指示に従ってテキスト及び画像等の可視情報を表示する。スピーカ40Bは、プロセッサ46からの指示に従って音声を出力する。カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラである。
The
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。
The communication I/
図2には、データ処理装置12及びスマートデバイス14の要部機能の一例が示されている。
Figure 2 shows an example of the main functions of the
図2に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って特定処理部290として動作することによって実現される。
As shown in FIG. 2, in the
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。
スマートデバイス14では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。受付出力プログラム60は、データ処理システム10によって特定処理プログラム56と併用される。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
In the
なお、データ処理装置12以外の他の装置がデータ生成モデル58を有してもよい。例えば、サーバ装置(例えば、ChatGPTサーバ)がデータ生成モデル58を有してもよい。この場合、データ処理装置12は、データ生成モデル58を有するサーバ装置と通信を行うことで、データ生成モデル58が用いられた処理結果(予測結果など)を得る。また、データ処理装置12は、サーバ装置であってもよいし、ユーザが保有する端末装置(例えば、携帯電話、ロボット、家電)であってもよい。次に、データ処理装置12の特定処理部290による特定処理について説明する。
Note that a device other than the
(形態例1)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するためのセンサーと、追跡した視線情報をもとに過去の音声を再現するためのニューラルネットワークとを含むシステムである。具体的には、センサーは目の動きを検知し、その情報をニューラルネットワークに入力することで、過去の音声データと組み合わせて音声を生成する。
(形態例2)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するためのカメラと、追跡した視線情報をもとに過去の音声を再現するための音声合成モジュールとを含むシステムである。具体的には、カメラは目の動きを撮影し、その情報を音声合成モジュールに送信することで、過去の音声データと組み合わせて音声を合成する。
(形態例3)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するための赤外線センサーと、追跡した視線情報をもとに過去の音声を再現するための音声処理ユニットとを含むシステムである。具体的には、赤外線センサーは目の動きを検知し、その情報を音声処理ユニットに送信することで、過去の音声データと組み合わせて音声を処理する。
(Example 1)
The embodiment of the present invention is a system including a sensor for tracking the gaze of a person who is in a state where it is difficult to output voice, and a neural network for reproducing past voice based on the tracked gaze information. Specifically, the sensor detects eye movements and inputs the information into the neural network, which combines it with past voice data to generate voice.
(Example 2)
The embodiment of the present invention is a system including a camera for tracking the gaze of a person who is having difficulty outputting voice, and a voice synthesis module for reproducing past voice based on the tracked gaze information. Specifically, the camera captures eye movements and transmits the information to the voice synthesis module, which combines the information with past voice data to synthesize voice.
(Example 3)
The embodiment of the present invention is a system including an infrared sensor for tracking the gaze of a person who is having difficulty outputting voice, and a voice processing unit for reproducing past voice based on the tracked gaze information. Specifically, the infrared sensor detects eye movements and transmits the information to the voice processing unit, which processes the voice in combination with past voice data.
以下に、各形態例の処理の流れについて説明する。 The process flow for each example is explained below.
(形態例1)
ステップ1:音声出力が困難な状態にある人の目の動きを検知するために、センサーが目の位置や動きを計測する。
ステップ2:センサーが検知した目の動き情報をニューラルネットワークに入力し、過去の音声データと組み合わせて音声生成を行う。
ステップ3:ニューラルネットワークによって生成された音声を出力し、音声出力が困難な人が過去の音声を再現することができる。
(形態例2)
ステップ1:音声出力が困難な状態にある人の目の動きを撮影するために、カメラが目の位置や動きを映像として取得する。
ステップ2:カメラが取得した目の動き映像を音声合成モジュールに送信し、過去の音声データと組み合わせて音声合成を行う。
ステップ3:音声合成モジュールによって合成された音声を出力し、音声出力が困難な人が過去の音声を再現することができる。
(形態例3)
ステップ1:音声出力が困難な状態にある人の目の動きを検知するために、赤外線センサーが目の位置や動きを赤外線で計測する。
ステップ2:赤外線センサーが検知した目の動き情報を音声処理ユニットに送信し、過去の音声データと組み合わせて音声処理を行う。
ステップ3:音声処理ユニットによって処理された音声を出力し、音声出力が困難な人が過去の音声を再現することができる。
(Example 1)
Step 1: To detect the eye movements of a person who is having difficulty producing speech output, a sensor measures the position and movement of the eyes.
Step 2: The eye movement information detected by the sensor is input into the neural network and combined with past voice data to generate voice.
Step 3: The voice generated by the neural network is output, allowing people with difficulty in speech output to reproduce past voices.
(Example 2)
Step 1: To capture the eye movements of a person who is having difficulty outputting voice, a camera captures video of the eye position and movements.
Step 2: The eye movement video captured by the camera is sent to the voice synthesis module, where it is combined with past voice data to synthesize voice.
Step 3: The voice synthesis module outputs the synthesized voice, allowing people who have difficulty in voice output to reproduce past voices.
(Example 3)
Step 1: To detect the eye movements of a person who is having difficulty outputting voice, an infrared sensor measures the position and movement of the eyes using infrared rays.
Step 2: The eye movement information detected by the infrared sensor is sent to the voice processing unit, where it is combined with past voice data for voice processing.
Step 3: The voice processed by the voice processing unit is output, so that a person who has difficulty in voice output can reproduce the past voice.
更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。
Furthermore, an emotion engine that estimates the user's emotion may be combined. That is, the
(形態例1)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するためのセンサーと、追跡した視線情報をもとに過去の音声を再現するためのニューラルネットワークと、ユーザの感情を認識する感情エンジンとを含むシステムである。具体的には、センサーが目の動きを検知し、その情報をニューラルネットワークに入力することで、過去の音声データと組み合わせて音声を生成する。さらに、感情エンジンは視線情報と音声データを分析し、感情を推定し、音声再生時に適切な感情表現を生成する。
(形態例2)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するためのカメラと、追跡した視線情報をもとに過去の音声を再現するための音声合成モジュールと、ユーザの感情を認識する感情エンジンとを含むシステムである。具体的には、カメラが目の動きを撮影し、その情報を音声合成モジュールに送信することで、過去の音声データと組み合わせて音声を合成する。さらに、感情エンジンは視線情報と感情推定結果をもとに、音声のリアルタイムな調整を行い、適切な感情表現を反映させる。
(形態例3)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するための赤外線センサーと、追跡した視線情報をもとに過去の音声を再現するための音声処理ユニットと、ユーザの感情を認識する感情エンジンとを含むシステムである。具体的には、赤外線センサーが目の位置や動きを赤外線で計測し、その情報を音声処理ユニットに送信することで、過去の音声データと組み合わせて音声を処理する。さらに、感情エンジンは視線情報と感情推定結果をもとに、音声合成パラメータを調整し、感情の変化に応じたリアルタイムな音声処理を行う。
(Example 1)
The embodiment of the present invention is a system including a sensor for tracking the gaze of a person who is in a state where voice output is difficult, a neural network for reproducing past voice based on the tracked gaze information, and an emotion engine for recognizing the user's emotions. Specifically, the sensor detects eye movements and inputs the information into the neural network, which combines the information with past voice data to generate voice. Furthermore, the emotion engine analyzes the gaze information and voice data, estimates emotions, and generates appropriate emotional expressions when playing back voice.
(Example 2)
The embodiment of the present invention is a system including a camera for tracking the gaze of a person who is in a state where voice output is difficult, a voice synthesis module for reproducing past voice based on the tracked gaze information, and an emotion engine for recognizing the user's emotions. Specifically, the camera captures eye movements and transmits the information to the voice synthesis module, which combines the information with past voice data to synthesize voice. Furthermore, the emotion engine adjusts the voice in real time based on the gaze information and emotion estimation results to reflect appropriate emotional expressions.
(Example 3)
The embodiment of the present invention is a system including an infrared sensor for tracking the gaze of a person who is in a state where voice output is difficult, a voice processing unit for reproducing past voice based on the tracked gaze information, and an emotion engine for recognizing the user's emotions. Specifically, the infrared sensor measures the position and movement of the eyes with infrared rays, and transmits the information to the voice processing unit, which combines it with past voice data to process the voice. Furthermore, the emotion engine adjusts voice synthesis parameters based on the gaze information and emotion estimation results, and performs real-time voice processing according to changes in emotions.
以下に、各形態例の処理の流れについて説明する。 The process flow for each example is explained below.
(形態例1)
ステップ1:音声出力が困難な状態にある人の目の動きを検知するために、センサーが目の位置や動きを計測する。
ステップ2:センサーが検知した目の動き情報をニューラルネットワークに入力し、過去の音声データと組み合わせて音声生成を行う。
ステップ3:感情エンジンが視線情報と音声データを分析し、感情を推定し、適切な感情表現を生成する。生成された音声と感情表現を組み合わせて、音声出力が困難な人が感情を含んだ過去の音声を再現することができる。
(形態例2)
ステップ1:音声出力が困難な状態にある人の目の動きを撮影するために、カメラが目の位置や動きを映像として取得する。
ステップ2:カメラが取得した目の動き映像を音声合成モジュールに送信し、過去の音声データと組み合わせて音声合成を行う。
ステップ3:感情エンジンが視線情報と音声データを分析し、感情を推定し、適切な感情表現を生成する。生成された音声と感情表現を組み合わせて、音声出力が困難な人が感情を含んだ過去の音声を再現することができる。
(形態例3)
ステップ1:音声出力が困難な状態にある人の目の動きを検知するために、赤外線センサーが目の位置や動きを赤外線で計測する。
ステップ2:赤外線センサーが検知した目の動き情報を音声処理ユニットに送信し、過去の音声データと組み合わせて音声処理を行う。
ステップ3:感情エンジンが視線情報と音声データを分析し、感情を推定し、適切な感情表現を生成する。生成された音声と感情表現を組み合わせて、音声出力が困難な人が感情を含んだ過去の音声を再現することができる。
(Example 1)
Step 1: To detect the eye movements of a person who is having difficulty producing speech output, a sensor measures the position and movement of the eyes.
Step 2: The eye movement information detected by the sensor is input into the neural network and combined with past voice data to generate voice.
Step 3: The emotion engine analyzes the gaze information and voice data, infers emotions, and generates appropriate emotional expressions. By combining the generated voice and emotional expressions, people who have difficulty outputting voice can reproduce past voices containing emotions.
(Example 2)
Step 1: To capture the eye movements of a person who is having difficulty outputting voice, a camera captures video of the eye position and movements.
Step 2: The eye movement video captured by the camera is sent to the voice synthesis module, where it is combined with past voice data to synthesize voice.
Step 3: The emotion engine analyzes the gaze information and voice data, infers emotions, and generates appropriate emotional expressions. By combining the generated voice and emotional expressions, people who have difficulty outputting voice can reproduce past voices containing emotions.
(Example 3)
Step 1: To detect the eye movements of a person who is having difficulty outputting voice, an infrared sensor measures the position and movement of the eyes using infrared rays.
Step 2: The eye movement information detected by the infrared sensor is sent to the voice processing unit, where it is combined with past voice data for voice processing.
Step 3: The emotion engine analyzes the gaze information and voice data, infers emotions, and generates appropriate emotional expressions. By combining the generated voice and emotional expressions, people who have difficulty outputting voice can reproduce past voices containing emotions.
特定処理部290は、特定処理の結果をスマートデバイス14に送信する。スマートデバイス14では、制御部46Aが、出力装置40に対して特定処理の結果を出力させる。マイクロフォン38Bは、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン38Bによって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。
The
データ生成モデル58は、いわゆる生成AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。特定処理部290は、データ生成モデル58を用いながら、上述した特定処理を行う。
The
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、スマートデバイス14によって特定処理が行われるようにしてもよい。
In the above embodiment, an example was given in which the specific processing is performed by the
[第2実施形態] [Second embodiment]
図3には、第2実施形態に係るデータ処理システム210の構成の一例が示されている。
Figure 3 shows an example of the configuration of a
図3に示すように、データ処理システム210は、データ処理装置12及びスマート眼鏡214を備えている。データ処理装置12の一例としては、サーバが挙げられる。
As shown in FIG. 3, the
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
The
スマート眼鏡214は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、及び通信I/F44を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、及びカメラ42も、バス52に接続されている。
The
マイクロフォン238は、ユーザが発する音声を受け付けることで、ユーザから指示等を受け付ける。マイクロフォン238は、ユーザが発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。
The
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザの周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。
The communication I/
図4には、データ処理装置12及びスマート眼鏡214の要部機能の一例が示されている。図4に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。
Figure 4 shows an example of the main functions of the
特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。
The
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。
スマート眼鏡214では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
In the
なお、データ処理装置12以外の他の装置がデータ生成モデル58を有してもよい。例えば、サーバ装置(例えば、ChatGPTサーバ)がデータ生成モデル58を有してもよい。この場合、データ処理装置12は、データ生成モデル58を有するサーバ装置と通信を行うことで、データ生成モデル58が用いられた処理結果(予測結果など)を得る。また、データ処理装置12は、サーバ装置であってもよいし、ユーザが保有する端末装置(例えば、携帯電話、ロボット、家電)であってもよい。次に、データ処理装置12の特定処理部290による特定処理について説明する。
Note that a device other than the
(形態例1)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するためのセンサーと、追跡した視線情報をもとに過去の音声を再現するためのニューラルネットワークとを含むシステムである。具体的には、センサーは目の動きを検知し、その情報をニューラルネットワークに入力することで、過去の音声データと組み合わせて音声を生成する。
(形態例2)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するためのカメラと、追跡した視線情報をもとに過去の音声を再現するための音声合成モジュールとを含むシステムである。具体的には、カメラは目の動きを撮影し、その情報を音声合成モジュールに送信することで、過去の音声データと組み合わせて音声を合成する。
(形態例3)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するための赤外線センサーと、追跡した視線情報をもとに過去の音声を再現するための音声処理ユニットとを含むシステムである。具体的には、赤外線センサーは目の動きを検知し、その情報を音声処理ユニットに送信することで、過去の音声データと組み合わせて音声を処理する。
(Example 1)
The embodiment of the present invention is a system including a sensor for tracking the gaze of a person who is in a state where it is difficult to output voice, and a neural network for reproducing past voice based on the tracked gaze information. Specifically, the sensor detects eye movements and inputs the information into the neural network, which combines it with past voice data to generate voice.
(Example 2)
The embodiment of the present invention is a system including a camera for tracking the gaze of a person who is having difficulty outputting voice, and a voice synthesis module for reproducing past voice based on the tracked gaze information. Specifically, the camera captures eye movements and transmits the information to the voice synthesis module, which combines the information with past voice data to synthesize voice.
(Example 3)
The embodiment of the present invention is a system including an infrared sensor for tracking the gaze of a person who is having difficulty outputting voice, and a voice processing unit for reproducing past voice based on the tracked gaze information. Specifically, the infrared sensor detects eye movements and transmits the information to the voice processing unit, which processes the voice in combination with past voice data.
以下に、各形態例の処理の流れについて説明する。 The process flow for each example is explained below.
(形態例1)
ステップ1:音声出力が困難な状態にある人の目の動きを検知するために、センサーが目の位置や動きを計測する。
ステップ2:センサーが検知した目の動き情報をニューラルネットワークに入力し、過去の音声データと組み合わせて音声生成を行う。
ステップ3:ニューラルネットワークによって生成された音声を出力し、音声出力が困難な人が過去の音声を再現することができる。
(形態例2)
ステップ1:音声出力が困難な状態にある人の目の動きを撮影するために、カメラが目の位置や動きを映像として取得する。
ステップ2:カメラが取得した目の動き映像を音声合成モジュールに送信し、過去の音声データと組み合わせて音声合成を行う。
ステップ3:音声合成モジュールによって合成された音声を出力し、音声出力が困難な人が過去の音声を再現することができる。
(形態例3)
ステップ1:音声出力が困難な状態にある人の目の動きを検知するために、赤外線センサーが目の位置や動きを赤外線で計測する。
ステップ2:赤外線センサーが検知した目の動き情報を音声処理ユニットに送信し、過去の音声データと組み合わせて音声処理を行う。
ステップ3:音声処理ユニットによって処理された音声を出力し、音声出力が困難な人が過去の音声を再現することができる。
(Example 1)
Step 1: To detect the eye movements of a person who is having difficulty producing speech output, a sensor measures the position and movement of the eyes.
Step 2: The eye movement information detected by the sensor is input into the neural network and combined with past voice data to generate voice.
Step 3: The voice generated by the neural network is output, allowing people with difficulty in speech output to reproduce past voices.
(Example 2)
Step 1: To capture the eye movements of a person who is having difficulty outputting voice, a camera captures video of the eye position and movements.
Step 2: The eye movement video captured by the camera is sent to the voice synthesis module, where it is combined with past voice data to synthesize voice.
Step 3: The voice synthesis module outputs the synthesized voice, allowing people who have difficulty in voice output to reproduce past voices.
(Example 3)
Step 1: To detect the eye movements of a person who is having difficulty outputting voice, an infrared sensor measures the position and movement of the eyes using infrared rays.
Step 2: The eye movement information detected by the infrared sensor is sent to the voice processing unit, where it is combined with past voice data for voice processing.
Step 3: The voice processed by the voice processing unit is output, so that a person who has difficulty in voice output can reproduce the past voice.
なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。
Furthermore, an emotion engine that estimates the user's emotion may be combined. That is, the
(形態例1)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するためのセンサーと、追跡した視線情報をもとに過去の音声を再現するためのニューラルネットワークと、ユーザの感情を認識する感情エンジンとを含むシステムである。具体的には、センサーが目の動きを検知し、その情報をニューラルネットワークに入力することで、過去の音声データと組み合わせて音声を生成する。さらに、感情エンジンは視線情報と音声データを分析し、感情を推定し、音声再生時に適切な感情表現を生成する。
(形態例2)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するためのカメラと、追跡した視線情報をもとに過去の音声を再現するための音声合成モジュールと、ユーザの感情を認識する感情エンジンとを含むシステムである。具体的には、カメラが目の動きを撮影し、その情報を音声合成モジュールに送信することで、過去の音声データと組み合わせて音声を合成する。さらに、感情エンジンは視線情報と感情推定結果をもとに、音声のリアルタイムな調整を行い、適切な感情表現を反映させる。
(形態例3)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するための赤外線センサーと、追跡した視線情報をもとに過去の音声を再現するための音声処理ユニットと、ユーザの感情を認識する感情エンジンとを含むシステムである。具体的には、赤外線センサーが目の位置や動きを赤外線で計測し、その情報を音声処理ユニットに送信することで、過去の音声データと組み合わせて音声を処理する。さらに、感情エンジンは視線情報と感情推定結果をもとに、音声合成パラメータを調整し、感情の変化に応じたリアルタイムな音声処理を行う。
(Example 1)
The embodiment of the present invention is a system including a sensor for tracking the gaze of a person who is in a state where voice output is difficult, a neural network for reproducing past voice based on the tracked gaze information, and an emotion engine for recognizing the user's emotions. Specifically, the sensor detects eye movements and inputs the information into the neural network, which combines the information with past voice data to generate voice. Furthermore, the emotion engine analyzes the gaze information and voice data, estimates emotions, and generates appropriate emotional expressions when playing back voice.
(Example 2)
The embodiment of the present invention is a system including a camera for tracking the gaze of a person who is in a state where voice output is difficult, a voice synthesis module for reproducing past voice based on the tracked gaze information, and an emotion engine for recognizing the user's emotions. Specifically, the camera captures eye movements and transmits the information to the voice synthesis module, which combines the information with past voice data to synthesize voice. Furthermore, the emotion engine adjusts the voice in real time based on the gaze information and emotion estimation results to reflect appropriate emotional expressions.
(Example 3)
The embodiment of the present invention is a system including an infrared sensor for tracking the gaze of a person who is in a state where voice output is difficult, a voice processing unit for reproducing past voice based on the tracked gaze information, and an emotion engine for recognizing the user's emotions. Specifically, the infrared sensor measures the position and movement of the eyes with infrared rays, and transmits the information to the voice processing unit, which combines it with past voice data to process the voice. Furthermore, the emotion engine adjusts voice synthesis parameters based on the gaze information and emotion estimation results, and performs real-time voice processing according to changes in emotions.
以下に、各形態例の処理の流れについて説明する。 The process flow for each example is explained below.
(形態例1)
ステップ1:音声出力が困難な状態にある人の目の動きを検知するために、センサーが目の位置や動きを計測する。
ステップ2:センサーが検知した目の動き情報をニューラルネットワークに入力し、過去の音声データと組み合わせて音声生成を行う。
ステップ3:感情エンジンが視線情報と音声データを分析し、感情を推定し、適切な感情表現を生成する。生成された音声と感情表現を組み合わせて、音声出力が困難な人が感情を含んだ過去の音声を再現することができる。
(形態例2)
ステップ1:音声出力が困難な状態にある人の目の動きを撮影するために、カメラが目の位置や動きを映像として取得する。
ステップ2:カメラが取得した目の動き映像を音声合成モジュールに送信し、過去の音声データと組み合わせて音声合成を行う。
ステップ3:感情エンジンが視線情報と音声データを分析し、感情を推定し、適切な感情表現を生成する。生成された音声と感情表現を組み合わせて、音声出力が困難な人が感情を含んだ過去の音声を再現することができる。
(形態例3)
ステップ1:音声出力が困難な状態にある人の目の動きを検知するために、赤外線センサーが目の位置や動きを赤外線で計測する。
ステップ2:赤外線センサーが検知した目の動き情報を音声処理ユニットに送信し、過去の音声データと組み合わせて音声処理を行う。
ステップ3:感情エンジンが視線情報と音声データを分析し、感情を推定し、適切な感情表現を生成する。生成された音声と感情表現を組み合わせて、音声出力が困難な人が感情を含んだ過去の音声を再現することができる。
(Example 1)
Step 1: To detect the eye movements of a person who is having difficulty producing speech output, a sensor measures the position and movement of the eyes.
Step 2: The eye movement information detected by the sensor is input into the neural network and combined with past voice data to generate voice.
Step 3: The emotion engine analyzes the gaze information and voice data, infers emotions, and generates appropriate emotional expressions. By combining the generated voice and emotional expressions, people who have difficulty outputting voice can reproduce past voices containing emotions.
(Example 2)
Step 1: To capture the eye movements of a person who is having difficulty outputting voice, a camera captures video of the eye position and movements.
Step 2: The eye movement video captured by the camera is sent to the voice synthesis module, where it is combined with past voice data to synthesize voice.
Step 3: The emotion engine analyzes the gaze information and voice data, infers emotions, and generates appropriate emotional expressions. By combining the generated voice and emotional expressions, people who have difficulty outputting voice can reproduce past voices containing emotions.
(Example 3)
Step 1: To detect the eye movements of a person who is having difficulty outputting voice, an infrared sensor measures the position and movement of the eyes using infrared rays.
Step 2: The eye movement information detected by the infrared sensor is sent to the voice processing unit, where it is combined with past voice data for voice processing.
Step 3: The emotion engine analyzes the gaze information and voice data, infers emotions, and generates appropriate emotional expressions. By combining the generated voice and emotional expressions, people who have difficulty outputting voice can reproduce past voices containing emotions.
特定処理部290は、特定処理の結果をスマート眼鏡214に送信する。スマート眼鏡214では、制御部46Aが、スピーカ240に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。
The
データ生成モデル58は、いわゆる生成AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。特定処理部290は、データ生成モデル58を用いながら、上述した特定処理を行う。
The
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、スマート眼鏡214によって特定処理が行われるようにしてもよい。
In the above embodiment, an example was given in which the specific processing is performed by the
[第3実施形態] [Third embodiment]
図5には、第3実施形態に係るデータ処理システム310の構成の一例が示されている。
Figure 5 shows an example of the configuration of a
図5に示すように、データ処理システム310は、データ処理装置12及びヘッドセット型端末314を備えている。データ処理装置12の一例としては、サーバが挙げられる。
As shown in FIG. 5, the
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
The
ヘッドセット型端末314は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、通信I/F44、及びディスプレイ343を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、カメラ42、及びディスプレイ343も、バス52に接続されている。
The
マイクロフォン238は、ユーザが発する音声を受け付けることで、ユーザから指示等を受け付ける。マイクロフォン238は、ユーザが発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。
The
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザの周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。
The communication I/
図6には、データ処理装置12及びヘッドセット型端末314の要部機能の一例が示されている。図6に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。
Figure 6 shows an example of the main functions of the
特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。
The
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。
ヘッドセット型端末314では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
In the
なお、データ処理装置12以外の他の装置がデータ生成モデル58を有してもよい。例えば、サーバ装置(例えば、ChatGPTサーバ)がデータ生成モデル58を有してもよい。この場合、データ処理装置12は、データ生成モデル58を有するサーバ装置と通信を行うことで、データ生成モデル58が用いられた処理結果(予測結果など)を得る。また、データ処理装置12は、サーバ装置であってもよいし、ユーザが保有する端末装置(例えば、携帯電話、ロボット、家電)であってもよい。次に、データ処理装置12の特定処理部290による特定処理について説明する。
Note that a device other than the
(形態例1)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するためのセンサーと、追跡した視線情報をもとに過去の音声を再現するためのニューラルネットワークとを含むシステムである。具体的には、センサーは目の動きを検知し、その情報をニューラルネットワークに入力することで、過去の音声データと組み合わせて音声を生成する。
(形態例2)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するためのカメラと、追跡した視線情報をもとに過去の音声を再現するための音声合成モジュールとを含むシステムである。具体的には、カメラは目の動きを撮影し、その情報を音声合成モジュールに送信することで、過去の音声データと組み合わせて音声を合成する。
(形態例3)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するための赤外線センサーと、追跡した視線情報をもとに過去の音声を再現するための音声処理ユニットとを含むシステムである。具体的には、赤外線センサーは目の動きを検知し、その情報を音声処理ユニットに送信することで、過去の音声データと組み合わせて音声を処理する。
(Example 1)
The embodiment of the present invention is a system including a sensor for tracking the gaze of a person who is in a state where it is difficult to output voice, and a neural network for reproducing past voice based on the tracked gaze information. Specifically, the sensor detects eye movements and inputs the information into the neural network, which combines it with past voice data to generate voice.
(Example 2)
The embodiment of the present invention is a system including a camera for tracking the gaze of a person who is having difficulty outputting voice, and a voice synthesis module for reproducing past voice based on the tracked gaze information. Specifically, the camera captures eye movements and transmits the information to the voice synthesis module, which combines the information with past voice data to synthesize voice.
(Example 3)
The embodiment of the present invention is a system including an infrared sensor for tracking the gaze of a person who is having difficulty outputting voice, and a voice processing unit for reproducing past voice based on the tracked gaze information. Specifically, the infrared sensor detects eye movements and transmits the information to the voice processing unit, which processes the voice in combination with past voice data.
以下に、各形態例の処理の流れについて説明する。 The process flow for each example is explained below.
(形態例1)
ステップ1:音声出力が困難な状態にある人の目の動きを検知するために、センサーが目の位置や動きを計測する。
ステップ2:センサーが検知した目の動き情報をニューラルネットワークに入力し、過去の音声データと組み合わせて音声生成を行う。
ステップ3:ニューラルネットワークによって生成された音声を出力し、音声出力が困難な人が過去の音声を再現することができる。
(形態例2)
ステップ1:音声出力が困難な状態にある人の目の動きを撮影するために、カメラが目の位置や動きを映像として取得する。
ステップ2:カメラが取得した目の動き映像を音声合成モジュールに送信し、過去の音声データと組み合わせて音声合成を行う。
ステップ3:音声合成モジュールによって合成された音声を出力し、音声出力が困難な人が過去の音声を再現することができる。
(形態例3)
ステップ1:音声出力が困難な状態にある人の目の動きを検知するために、赤外線センサーが目の位置や動きを赤外線で計測する。
ステップ2:赤外線センサーが検知した目の動き情報を音声処理ユニットに送信し、過去の音声データと組み合わせて音声処理を行う。
ステップ3:音声処理ユニットによって処理された音声を出力し、音声出力が困難な人が過去の音声を再現することができる。
(Example 1)
Step 1: To detect the eye movements of a person who is having difficulty producing speech output, a sensor measures the position and movement of the eyes.
Step 2: The eye movement information detected by the sensor is input into the neural network and combined with past voice data to generate voice.
Step 3: The voice generated by the neural network is output, allowing people with difficulty in speech output to reproduce past voices.
(Example 2)
Step 1: To capture the eye movements of a person who is having difficulty outputting voice, a camera captures video of the eye position and movements.
Step 2: The eye movement video captured by the camera is sent to the voice synthesis module, where it is combined with past voice data to synthesize voice.
Step 3: The voice synthesis module outputs the synthesized voice, allowing people who have difficulty in voice output to reproduce past voices.
(Example 3)
Step 1: To detect the eye movements of a person who is having difficulty outputting voice, an infrared sensor measures the position and movement of the eyes using infrared rays.
Step 2: The eye movement information detected by the infrared sensor is sent to the voice processing unit, where it is combined with past voice data for voice processing.
Step 3: The voice processed by the voice processing unit is output, so that a person who has difficulty in voice output can reproduce the past voice.
なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。
Furthermore, an emotion engine that estimates the user's emotion may be combined. That is, the
(形態例1)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するためのセンサーと、追跡した視線情報をもとに過去の音声を再現するためのニューラルネットワークと、ユーザの感情を認識する感情エンジンとを含むシステムである。具体的には、センサーが目の動きを検知し、その情報をニューラルネットワークに入力することで、過去の音声データと組み合わせて音声を生成する。さらに、感情エンジンは視線情報と音声データを分析し、感情を推定し、音声再生時に適切な感情表現を生成する。
(形態例2)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するためのカメラと、追跡した視線情報をもとに過去の音声を再現するための音声合成モジュールと、ユーザの感情を認識する感情エンジンとを含むシステムである。具体的には、カメラが目の動きを撮影し、その情報を音声合成モジュールに送信することで、過去の音声データと組み合わせて音声を合成する。さらに、感情エンジンは視線情報と感情推定結果をもとに、音声のリアルタイムな調整を行い、適切な感情表現を反映させる。
(形態例3)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するための赤外線センサーと、追跡した視線情報をもとに過去の音声を再現するための音声処理ユニットと、ユーザの感情を認識する感情エンジンとを含むシステムである。具体的には、赤外線センサーが目の位置や動きを赤外線で計測し、その情報を音声処理ユニットに送信することで、過去の音声データと組み合わせて音声を処理する。さらに、感情エンジンは視線情報と感情推定結果をもとに、音声合成パラメータを調整し、感情の変化に応じたリアルタイムな音声処理を行う。
(Example 1)
The embodiment of the present invention is a system including a sensor for tracking the gaze of a person who is in a state where voice output is difficult, a neural network for reproducing past voice based on the tracked gaze information, and an emotion engine for recognizing the user's emotions. Specifically, the sensor detects eye movements and inputs the information into the neural network, which combines the information with past voice data to generate voice. Furthermore, the emotion engine analyzes the gaze information and voice data, estimates emotions, and generates appropriate emotional expressions when playing back voice.
(Example 2)
The embodiment of the present invention is a system including a camera for tracking the gaze of a person who is in a state where voice output is difficult, a voice synthesis module for reproducing past voice based on the tracked gaze information, and an emotion engine for recognizing the user's emotions. Specifically, the camera captures eye movements and transmits the information to the voice synthesis module, which combines the information with past voice data to synthesize voice. Furthermore, the emotion engine adjusts the voice in real time based on the gaze information and emotion estimation results to reflect appropriate emotional expressions.
(Example 3)
The embodiment of the present invention is a system including an infrared sensor for tracking the gaze of a person who is in a state where voice output is difficult, a voice processing unit for reproducing past voice based on the tracked gaze information, and an emotion engine for recognizing the user's emotions. Specifically, the infrared sensor measures the position and movement of the eyes with infrared rays, and transmits the information to the voice processing unit, which combines it with past voice data to process the voice. Furthermore, the emotion engine adjusts voice synthesis parameters based on the gaze information and emotion estimation results, and performs real-time voice processing according to changes in emotions.
以下に、各形態例の処理の流れについて説明する。 The process flow for each example is explained below.
(形態例1)
ステップ1:音声出力が困難な状態にある人の目の動きを検知するために、センサーが目の位置や動きを計測する。
ステップ2:センサーが検知した目の動き情報をニューラルネットワークに入力し、過去の音声データと組み合わせて音声生成を行う。
ステップ3:感情エンジンが視線情報と音声データを分析し、感情を推定し、適切な感情表現を生成する。生成された音声と感情表現を組み合わせて、音声出力が困難な人が感情を含んだ過去の音声を再現することができる。
(形態例2)
ステップ1:音声出力が困難な状態にある人の目の動きを撮影するために、カメラが目の位置や動きを映像として取得する。
ステップ2:カメラが取得した目の動き映像を音声合成モジュールに送信し、過去の音声データと組み合わせて音声合成を行う。
ステップ3:感情エンジンが視線情報と音声データを分析し、感情を推定し、適切な感情表現を生成する。生成された音声と感情表現を組み合わせて、音声出力が困難な人が感情を含んだ過去の音声を再現することができる。
(形態例3)
ステップ1:音声出力が困難な状態にある人の目の動きを検知するために、赤外線センサーが目の位置や動きを赤外線で計測する。
ステップ2:赤外線センサーが検知した目の動き情報を音声処理ユニットに送信し、過去の音声データと組み合わせて音声処理を行う。
ステップ3:感情エンジンが視線情報と音声データを分析し、感情を推定し、適切な感情表現を生成する。生成された音声と感情表現を組み合わせて、音声出力が困難な人が感情を含んだ過去の音声を再現することができる。
(Example 1)
Step 1: To detect the eye movements of a person who is having difficulty producing speech output, a sensor measures the position and movement of the eyes.
Step 2: The eye movement information detected by the sensor is input into the neural network and combined with past voice data to generate voice.
Step 3: The emotion engine analyzes the gaze information and voice data, infers emotions, and generates appropriate emotional expressions. By combining the generated voice and emotional expressions, people who have difficulty outputting voice can reproduce past voices containing emotions.
(Example 2)
Step 1: To capture the eye movements of a person who is having difficulty outputting voice, a camera captures video of the eye position and movements.
Step 2: The eye movement video captured by the camera is sent to the voice synthesis module, where it is combined with past voice data to synthesize voice.
Step 3: The emotion engine analyzes the gaze information and voice data, infers emotions, and generates appropriate emotional expressions. By combining the generated voice and emotional expressions, people who have difficulty outputting voice can reproduce past voices containing emotions.
(Example 3)
Step 1: To detect the eye movements of a person who is having difficulty outputting voice, an infrared sensor measures the position and movement of the eyes using infrared rays.
Step 2: The eye movement information detected by the infrared sensor is sent to the voice processing unit, where it is combined with past voice data for voice processing.
Step 3: The emotion engine analyzes the gaze information and voice data, infers emotions, and generates appropriate emotional expressions. By combining the generated voice and emotional expressions, people who have difficulty outputting voice can reproduce past voices containing emotions.
特定処理部290は、特定処理の結果をヘッドセット型端末314に送信する。ヘッドセット型端末314では、制御部46Aが、スピーカ240及びディスプレイ343に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。
The
データ生成モデル58は、いわゆる生成AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。特定処理部290は、データ生成モデル58を用いながら、上述した特定処理を行う。
The
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、ヘッドセット型端末314によって特定処理が行われるようにしてもよい。
[第4実施形態]
In the above embodiment, an example was given in which the specific processing is performed by the
[Fourth embodiment]
図7には、第4実施形態に係るデータ処理システム410の構成の一例が示されている。
Figure 7 shows an example of the configuration of a
図7に示すように、データ処理システム410は、データ処理装置12及びロボット414を備えている。データ処理装置12の一例としては、サーバが挙げられる。
As shown in FIG. 7, the
データ処理装置12は、コンピュータ22、データベース24、及び通信I/F26を備えている。コンピュータ22は、本開示の技術に係る「コンピュータ」の一例である。コンピュータ22は、プロセッサ28、RAM30、及びストレージ32を備えている。プロセッサ28、RAM30、及びストレージ32は、バス34に接続されている。また、データベース24及び通信I/F26も、バス34に接続されている。通信I/F26は、ネットワーク54に接続されている。ネットワーク54の一例としては、WAN(Wide Area Network)及び/又はLAN(Local Area Network)等が挙げられる。
The
ロボット414は、コンピュータ36、マイクロフォン238、スピーカ240、カメラ42、通信I/F44、及び制御対象443を備えている。コンピュータ36は、プロセッサ46、RAM48、及びストレージ50を備えている。プロセッサ46、RAM48、及びストレージ50は、バス52に接続されている。また、マイクロフォン238、スピーカ240、カメラ42、及び制御対象443も、バス52に接続されている。
The
マイクロフォン238は、ユーザが発する音声を受け付けることで、ユーザから指示等を受け付ける。マイクロフォン238は、ユーザが発する音声を捕捉し、捕捉した音声を音声データに変換してプロセッサ46に出力する。スピーカ240は、プロセッサ46からの指示に従って音声を出力する。
The
カメラ42は、レンズ、絞り、及びシャッタ等の光学系と、CMOS(Complementary Metal-Oxide-Semiconductor)イメージセンサ又はCCD(Charge Coupled Device)イメージセンサ等の撮像素子とが搭載された小型デジタルカメラであり、ユーザの周囲(例えば、一般的な健常者の視界の広さに相当する画角で規定された撮像範囲)を撮像する。
通信I/F44は、ネットワーク54に接続されている。通信I/F44及び26は、ネットワーク54を介してプロセッサ46とプロセッサ28との間の各種情報の授受を司る。通信I/F44及び26を用いたプロセッサ46とプロセッサ28との間の各種情報の授受はセキュアな状態で行われる。
The communication I/
制御対象443は、表示装置、目部のLED、並びに、腕、手及び足等を駆動するモータ等を含む。ロボット414の姿勢や仕草は、腕、手及び足等のモータを制御することにより制御される。ロボット414の感情の一部は、これらのモータを制御することにより表現できる。また、ロボット414の目部のLEDの発光状態を制御することによっても、ロボット414の表情を表現できる。
The controlled
図8には、データ処理装置12及びロボット414の要部機能の一例が示されている。図8に示すように、データ処理装置12では、プロセッサ28によって特定処理が行われる。ストレージ32には、特定処理プログラム56が格納されている。
Figure 8 shows an example of the main functions of the
特定処理プログラム56は、本開示の技術に係る「プログラム」の一例である。プロセッサ28は、ストレージ32から特定処理プログラム56を読み出し、読み出した特定処理プログラム56をRAM30上で実行する。特定処理は、プロセッサ28がRAM30上で実行する特定処理プログラム56に従って、特定処理部290として動作することによって実現される。
The
ストレージ32には、データ生成モデル58及び感情特定モデル59が格納されている。データ生成モデル58及び感情特定モデル59は、特定処理部290によって用いられる。
ロボット414では、プロセッサ46によって受付出力処理が行われる。ストレージ50には、受付出力プログラム60が格納されている。プロセッサ46は、ストレージ50から受付出力プログラム60を読み出し、読み出した受付出力プログラム60をRAM48上で実行する。受付出力処理は、プロセッサ46がRAM48上で実行する受付出力プログラム60に従って、制御部46Aとして動作することによって実現される。
In the
なお、データ処理装置12以外の他の装置がデータ生成モデル58を有してもよい。例えば、サーバ装置(例えば、ChatGPTサーバ)がデータ生成モデル58を有してもよい。この場合、データ処理装置12は、データ生成モデル58を有するサーバ装置と通信を行うことで、データ生成モデル58が用いられた処理結果(予測結果など)を得る。また、データ処理装置12は、サーバ装置であってもよいし、ユーザが保有する端末装置(例えば、携帯電話、ロボット、家電)であってもよい。次に、データ処理装置12の特定処理部290による特定処理について説明する。
Note that a device other than the
(形態例1)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するためのセンサーと、追跡した視線情報をもとに過去の音声を再現するためのニューラルネットワークとを含むシステムである。具体的には、センサーは目の動きを検知し、その情報をニューラルネットワークに入力することで、過去の音声データと組み合わせて音声を生成する。
(形態例2)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するためのカメラと、追跡した視線情報をもとに過去の音声を再現するための音声合成モジュールとを含むシステムである。具体的には、カメラは目の動きを撮影し、その情報を音声合成モジュールに送信することで、過去の音声データと組み合わせて音声を合成する。
(形態例3)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するための赤外線センサーと、追跡した視線情報をもとに過去の音声を再現するための音声処理ユニットとを含むシステムである。具体的には、赤外線センサーは目の動きを検知し、その情報を音声処理ユニットに送信することで、過去の音声データと組み合わせて音声を処理する。
(Example 1)
The embodiment of the present invention is a system including a sensor for tracking the gaze of a person who is in a state where it is difficult to output voice, and a neural network for reproducing past voice based on the tracked gaze information. Specifically, the sensor detects eye movements and inputs the information into the neural network, which combines it with past voice data to generate voice.
(Example 2)
The embodiment of the present invention is a system including a camera for tracking the gaze of a person who is having difficulty outputting voice, and a voice synthesis module for reproducing past voice based on the tracked gaze information. Specifically, the camera captures eye movements and transmits the information to the voice synthesis module, which combines the information with past voice data to synthesize voice.
(Example 3)
The embodiment of the present invention is a system including an infrared sensor for tracking the gaze of a person who is having difficulty outputting voice, and a voice processing unit for reproducing past voice based on the tracked gaze information. Specifically, the infrared sensor detects eye movements and transmits the information to the voice processing unit, which processes the voice in combination with past voice data.
以下に、各形態例の処理の流れについて説明する。 The process flow for each example is explained below.
(形態例1)
ステップ1:音声出力が困難な状態にある人の目の動きを検知するために、センサーが目の位置や動きを計測する。
ステップ2:センサーが検知した目の動き情報をニューラルネットワークに入力し、過去の音声データと組み合わせて音声生成を行う。
ステップ3:ニューラルネットワークによって生成された音声を出力し、音声出力が困難な人が過去の音声を再現することができる。
(形態例2)
ステップ1:音声出力が困難な状態にある人の目の動きを撮影するために、カメラが目の位置や動きを映像として取得する。
ステップ2:カメラが取得した目の動き映像を音声合成モジュールに送信し、過去の音声データと組み合わせて音声合成を行う。
ステップ3:音声合成モジュールによって合成された音声を出力し、音声出力が困難な人が過去の音声を再現することができる。
(形態例3)
ステップ1:音声出力が困難な状態にある人の目の動きを検知するために、赤外線センサーが目の位置や動きを赤外線で計測する。
ステップ2:赤外線センサーが検知した目の動き情報を音声処理ユニットに送信し、過去の音声データと組み合わせて音声処理を行う。
ステップ3:音声処理ユニットによって処理された音声を出力し、音声出力が困難な人が過去の音声を再現することができる。
(Example 1)
Step 1: To detect the eye movements of a person who is having difficulty producing speech output, a sensor measures the position and movement of the eyes.
Step 2: The eye movement information detected by the sensor is input into the neural network and combined with past voice data to generate voice.
Step 3: The voice generated by the neural network is output, allowing people with difficulty in speech output to reproduce past voices.
(Example 2)
Step 1: To capture the eye movements of a person who is having difficulty outputting voice, a camera captures video of the eye position and movements.
Step 2: The eye movement video captured by the camera is sent to the voice synthesis module, where it is combined with past voice data to synthesize voice.
Step 3: The voice synthesis module outputs the synthesized voice, allowing people who have difficulty in voice output to reproduce past voices.
(Example 3)
Step 1: To detect the eye movements of a person who is having difficulty outputting voice, an infrared sensor measures the position and movement of the eyes using infrared rays.
Step 2: The eye movement information detected by the infrared sensor is sent to the voice processing unit, where it is combined with past voice data for voice processing.
Step 3: The voice processed by the voice processing unit is output, so that a person who has difficulty in voice output can reproduce the past voice.
なお、更に、ユーザの感情を推定する感情エンジンを組み合わせてもよい。すなわち、特定処理部290は、感情特定モデル59を用いてユーザの感情を推定し、ユーザの感情を用いた特定処理を行うようにしてもよい。
Furthermore, an emotion engine that estimates the user's emotion may be combined. That is, the
(形態例1)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するためのセンサーと、追跡した視線情報をもとに過去の音声を再現するためのニューラルネットワークと、ユーザの感情を認識する感情エンジンとを含むシステムである。具体的には、センサーが目の動きを検知し、その情報をニューラルネットワークに入力することで、過去の音声データと組み合わせて音声を生成する。さらに、感情エンジンは視線情報と音声データを分析し、感情を推定し、音声再生時に適切な感情表現を生成する。
(形態例2)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するためのカメラと、追跡した視線情報をもとに過去の音声を再現するための音声合成モジュールと、ユーザの感情を認識する感情エンジンとを含むシステムである。具体的には、カメラが目の動きを撮影し、その情報を音声合成モジュールに送信することで、過去の音声データと組み合わせて音声を合成する。さらに、感情エンジンは視線情報と感情推定結果をもとに、音声のリアルタイムな調整を行い、適切な感情表現を反映させる。
(形態例3)
本発明を実施するための形態は、音声出力が困難な状態にある人の視線を追跡するための赤外線センサーと、追跡した視線情報をもとに過去の音声を再現するための音声処理ユニットと、ユーザの感情を認識する感情エンジンとを含むシステムである。具体的には、赤外線センサーが目の位置や動きを赤外線で計測し、その情報を音声処理ユニットに送信することで、過去の音声データと組み合わせて音声を処理する。さらに、感情エンジンは視線情報と感情推定結果をもとに、音声合成パラメータを調整し、感情の変化に応じたリアルタイムな音声処理を行う。
(Example 1)
The embodiment of the present invention is a system including a sensor for tracking the gaze of a person who is in a state where voice output is difficult, a neural network for reproducing past voice based on the tracked gaze information, and an emotion engine for recognizing the user's emotions. Specifically, the sensor detects eye movements and inputs the information into the neural network, which combines the information with past voice data to generate voice. Furthermore, the emotion engine analyzes the gaze information and voice data, estimates emotions, and generates appropriate emotional expressions when playing back voice.
(Example 2)
The embodiment of the present invention is a system including a camera for tracking the gaze of a person who is in a state where voice output is difficult, a voice synthesis module for reproducing past voice based on the tracked gaze information, and an emotion engine for recognizing the user's emotions. Specifically, the camera captures eye movements and transmits the information to the voice synthesis module, which combines the information with past voice data to synthesize voice. Furthermore, the emotion engine adjusts the voice in real time based on the gaze information and emotion estimation results to reflect appropriate emotional expressions.
(Example 3)
The embodiment of the present invention is a system including an infrared sensor for tracking the gaze of a person who is in a state where voice output is difficult, a voice processing unit for reproducing past voice based on the tracked gaze information, and an emotion engine for recognizing the user's emotions. Specifically, the infrared sensor measures the position and movement of the eyes with infrared rays, and transmits the information to the voice processing unit, which combines it with past voice data to process the voice. Furthermore, the emotion engine adjusts voice synthesis parameters based on the gaze information and emotion estimation results, and performs real-time voice processing according to changes in emotions.
以下に、各形態例の処理の流れについて説明する。 The process flow for each example is explained below.
(形態例1)
ステップ1:音声出力が困難な状態にある人の目の動きを検知するために、センサーが目の位置や動きを計測する。
ステップ2:センサーが検知した目の動き情報をニューラルネットワークに入力し、過去の音声データと組み合わせて音声生成を行う。
ステップ3:感情エンジンが視線情報と音声データを分析し、感情を推定し、適切な感情表現を生成する。生成された音声と感情表現を組み合わせて、音声出力が困難な人が感情を含んだ過去の音声を再現することができる。
(形態例2)
ステップ1:音声出力が困難な状態にある人の目の動きを撮影するために、カメラが目の位置や動きを映像として取得する。
ステップ2:カメラが取得した目の動き映像を音声合成モジュールに送信し、過去の音声データと組み合わせて音声合成を行う。
ステップ3:感情エンジンが視線情報と音声データを分析し、感情を推定し、適切な感情表現を生成する。生成された音声と感情表現を組み合わせて、音声出力が困難な人が感情を含んだ過去の音声を再現することができる。
(形態例3)
ステップ1:音声出力が困難な状態にある人の目の動きを検知するために、赤外線センサーが目の位置や動きを赤外線で計測する。
ステップ2:赤外線センサーが検知した目の動き情報を音声処理ユニットに送信し、過去の音声データと組み合わせて音声処理を行う。
ステップ3:感情エンジンが視線情報と音声データを分析し、感情を推定し、適切な感情表現を生成する。生成された音声と感情表現を組み合わせて、音声出力が困難な人が感情を含んだ過去の音声を再現することができる。
(Example 1)
Step 1: To detect the eye movements of a person who is having difficulty producing speech output, a sensor measures the position and movement of the eyes.
Step 2: The eye movement information detected by the sensor is input into the neural network and combined with past voice data to generate voice.
Step 3: The emotion engine analyzes the gaze information and voice data, infers emotions, and generates appropriate emotional expressions. By combining the generated voice and emotional expressions, people who have difficulty outputting voice can reproduce past voices containing emotions.
(Example 2)
Step 1: To capture the eye movements of a person who is having difficulty outputting voice, a camera captures video of the eye position and movements.
Step 2: The eye movement video captured by the camera is sent to the voice synthesis module, where it is combined with past voice data to synthesize voice.
Step 3: The emotion engine analyzes the gaze information and voice data, infers emotions, and generates appropriate emotional expressions. By combining the generated voice and emotional expressions, people who have difficulty outputting voice can reproduce past voices containing emotions.
(Example 3)
Step 1: To detect the eye movements of a person who is having difficulty outputting voice, an infrared sensor measures the position and movement of the eyes using infrared rays.
Step 2: The eye movement information detected by the infrared sensor is sent to the voice processing unit, where it is combined with past voice data for voice processing.
Step 3: The emotion engine analyzes the gaze information and voice data, infers emotions, and generates appropriate emotional expressions. By combining the generated voice and emotional expressions, people who have difficulty outputting voice can reproduce past voices containing emotions.
特定処理部290は、特定処理の結果をロボット414に送信する。ロボット414では、制御部46Aが、スピーカ240及び制御対象443に対して特定処理の結果を出力させる。マイクロフォン238は、特定処理の結果に対するユーザ入力を示す音声を取得する。制御部46Aは、マイクロフォン238によって取得されたユーザ入力を示す音声データをデータ処理装置12に送信する。データ処理装置12では、特定処理部290が音声データを取得する。
The
データ生成モデル58は、いわゆる生成AI(Artificial Intelligence)である。データ生成モデル58の一例としては、ChatGPT(インターネット検索<URL: https://openai.com/blog/chatgpt>)等の生成AIが挙げられる。データ生成モデル58は、ニューラルネットワークに対して深層学習を行わせることによって得られる。データ生成モデル58には、指示を含むプロンプトが入力され、かつ、音声を示す音声データ、テキストを示すテキストデータ、及び画像を示す画像データ等の推論用データが入力される。データ生成モデル58は、入力された推論用データをプロンプトにより示される指示に従って推論し、推論結果を音声データ及びテキストデータ等のデータ形式で出力する。ここで、推論とは、例えば、分析、分類、予測、及び/又は要約等を指す。特定処理部290は、データ生成モデル58を用いながら、上述した特定処理を行う。
The
上記実施形態では、データ処理装置12によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、ロボット414によって特定処理が行われるようにしてもよい。
In the above embodiment, an example was given in which the specific processing is performed by the
なお、感情エンジンとしての感情特定モデル59は、特定のマッピングに従い、ユーザの感情を決定してよい。具体的には、感情特定モデル59は、特定のマッピングである感情マップ(図9参照)に従い、ユーザの感情を決定してよい。また、感情特定モデル59は、同様に、ロボットの感情を決定し、特定処理部290は、ロボットの感情を用いた特定処理を行うようにしてもよい。
The
図9は、複数の感情がマッピングされる感情マップ400を示す図である。感情マップ400において、感情は、中心から放射状に同心円に配置されている。同心円の中心に近いほど、原始的状態の感情が配置されている。同心円のより外側には、心境から生まれる状態や行動を表す感情が配置されている。感情とは、情動や心的状態も含む概念である。同心円の左側には、概して脳内で起きる反応から生成される感情が配置されている。同心円の右側には概して、状況判断で誘導される感情が配置されている。同心円の上方向及び下方向には、概して脳内で起きる反応から生成され、かつ、状況判断で誘導される感情が配置されている。また、同心円の上側には、「快」の感情が配置され、下側には、「不快」の感情が配置されている。このように、感情マップ400では、感情が生まれる構造に基づいて複数の感情がマッピングされており、同時に生じやすい感情が、近くにマッピングされている。
9 is a diagram showing an
これらの感情は、感情マップ400の3時の方向に分布しており、普段は安心と不安のあたりを行き来する。感情マップ400の右半分では、内部的な感覚よりも状況認識の方が優位に立つため、落ち着いた印象になる。
These emotions are distributed in the three o'clock direction of
感情マップ400の内側は心の中、感情マップ400の外側は行動を表すため、感情マップ400の外側に行くほど、感情が目に見える(行動に表れる)ようになる。
The inside of
ここで、人の感情は、姿勢や血糖値のような様々なバランスを基礎としており、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示す。ロボットや自動車やバイク等においても、姿勢やバッテリー残量のような様々なバランスを基礎として、それらのバランスが理想から遠ざかると不快、理想に近づくと快という状態を示すように感情を作ることができる。感情マップは、例えば、光吉博士の感情地図(音声感情認識及び情動の脳生理信号分析システムに関する研究、徳島大学、博士論文:https://ci.nii.ac.jp/naid/500000375379)に基づいて生成されてよい。感情地図の左半分には、感覚が優位にたつ「反応」と呼ばれる領域に属する感情が並ぶ。また、感情地図の右半分には、状況認識が優位にたつ「状況」と呼ばれる領域に属する感情が並ぶ。 Here, human emotions are based on various balances such as posture and blood sugar level, and when these balances are far from the ideal, it indicates an unpleasant state, and when they are close to the ideal, it indicates a pleasant state. Emotions can also be created for robots, cars, motorcycles, etc., based on various balances such as posture and remaining battery power, so that when these balances are far from the ideal, it indicates an unpleasant state, and when they are close to the ideal, it indicates a pleasant state. The emotion map may be generated, for example, based on the emotion map of Dr. Mitsuyoshi (Research on speech emotion recognition and emotion brain physiological signal analysis system, Tokushima University, doctoral dissertation: https://ci.nii.ac.jp/naid/500000375379). The left half of the emotion map is lined with emotions that belong to an area called "reaction" where sensation is dominant. The right half of the emotion map is lined with emotions that belong to an area called "situation" where situation recognition is dominant.
感情マップでは学習を促す感情が2つ定義される。1つは、状況側にあるネガティブな「懺悔」や「反省」の真ん中周辺の感情である。つまり、「もう2度とこんな想いはしたくない」「もう叱られたくない」というネガティブな感情がロボットに生じたときである。もう1つは、反応側にあるポジティブな「欲」のあたりの感情である。つまり、「もっと欲しい」「もっと知りたい」というポジティブな気持ちのときである。 The emotion map defines two emotions that encourage learning. The first is the negative emotion around the middle of "repentance" or "reflection" on the situation side. In other words, this is when the robot experiences negative emotions such as "I never want to feel this way again" or "I don't want to be scolded again." The other is the positive emotion around "desire" on the response side. In other words, this is when the robot has positive feelings such as "I want more" or "I want to know more."
感情特定モデル59は、ユーザ入力を、予め学習されたニューラルネットワークに入力し、感情マップ400に示す各感情を示す感情値を取得し、ユーザの感情を決定する。このニューラルネットワークは、ユーザ入力と、感情マップ400に示す各感情を示す感情値との組み合わせである複数の学習データに基づいて予め学習されたものである。また、このニューラルネットワークは、図10に示す感情マップ900のように、近くに配置されている感情同士は、近い値を持つように学習される。図10では、「安心」、「安穏」、「心強い」という複数の感情が、近い感情値となる例を示している。
The
上記実施形態では、1台のコンピュータ22によって特定処理が行われる形態例を挙げたが、本開示の技術はこれに限定されず、コンピュータ22を含めた複数のコンピュータによる特定処理に対する分散処理が行われるようにしてもよい。
In the above embodiment, an example was given in which a specific process is performed by one
上記実施形態では、ストレージ32に特定処理プログラム56が格納されている形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、特定処理プログラム56がUSB(Universal Serial Bus)メモリなどの可搬型のコンピュータ読み取り可能な非一時的格納媒体に格納されていてもよい。非一時的格納媒体に格納されている特定処理プログラム56は、データ処理装置12のコンピュータ22にインストールされる。プロセッサ28は、特定処理プログラム56に従って特定処理を実行する。
In the above embodiment, an example has been described in which the
また、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56を格納させておき、データ処理装置12の要求に応じて特定処理プログラム56がダウンロードされ、コンピュータ22にインストールされるようにしてもよい。
The
なお、ネットワーク54を介してデータ処理装置12に接続されるサーバ等の格納装置に特定処理プログラム56の全てを格納させておいたり、ストレージ32に特定処理プログラム56の全てを記憶させたりしておく必要はなく、特定処理プログラム56の一部を格納させておいてもよい。
It is not necessary to store all of the
特定処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、ソフトウェア、すなわち、プログラムを実行することで、特定処理を実行するハードウェア資源として機能する汎用的なプロセッサであるCPUが挙げられる。また、プロセッサとしては、例えば、FPGA(Field-Programmable Gate Array)、PLD(Programmable Logic Device)、又はASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することで特定処理を実行する。 The various processors listed below can be used as hardware resources for executing specific processes. Examples of processors include a CPU, which is a general-purpose processor that functions as a hardware resource for executing specific processes by executing software, i.e., a program. Examples of processors include dedicated electrical circuits, such as FPGAs (Field-Programmable Gate Arrays), PLDs (Programmable Logic Devices), or ASICs (Application Specific Integrated Circuits), which are processors with a circuit configuration designed specifically to execute specific processes. All of these processors have built-in or connected memory, and all of these processors execute specific processes by using the memory.
特定処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせ、又はCPUとFPGAとの組み合わせ)で構成されてもよい。また、特定処理を実行するハードウェア資源は1つのプロセッサであってもよい。 The hardware resource that executes the specific process may be composed of one of these various processors, or may be composed of a combination of two or more processors of the same or different types (e.g., a combination of multiple FPGAs, or a combination of a CPU and an FPGA). The hardware resource that executes the specific process may also be a single processor.
1つのプロセッサで構成する例としては、第1に、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが、特定処理を実行するハードウェア資源として機能する形態がある。第2に、SoC(System-on-a-chip)などに代表されるように、特定処理を実行する複数のハードウェア資源を含むシステム全体の機能を1つのICチップで実現するプロセッサを使用する形態がある。このように、特定処理は、ハードウェア資源として、上記各種のプロセッサの1つ以上を用いて実現される。 As an example of a configuration using a single processor, first, there is a configuration in which one processor is configured by combining one or more CPUs with software, and this processor functions as a hardware resource that executes a specific process. Secondly, there is a configuration in which a processor is used that realizes the functions of the entire system, including multiple hardware resources that execute a specific process, on a single IC chip, as typified by SoC (System-on-a-chip). In this way, a specific process is realized using one or more of the various processors mentioned above as hardware resources.
更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。また、上記の特定処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。 More specifically, the hardware structure of these various processors can be an electric circuit that combines circuit elements such as semiconductor elements. The specific processing described above is merely an example. It goes without saying that unnecessary steps can be deleted, new steps can be added, and the processing order can be changed without departing from the spirit of the invention.
以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。 The above description and illustrations are a detailed explanation of the parts related to the technology of the present disclosure, and are merely an example of the technology of the present disclosure. For example, the above explanation of the configuration, functions, actions, and effects is an explanation of an example of the configuration, functions, actions, and effects of the parts related to the technology of the present disclosure. Therefore, it goes without saying that unnecessary parts may be deleted, new elements may be added, or replacements may be made to the above description and illustrations, within the scope of the gist of the technology of the present disclosure. Also, in order to avoid confusion and to facilitate understanding of the parts related to the technology of the present disclosure, the above description and illustrations omit explanations of technical common knowledge that do not require particular explanation to enable the implementation of the technology of the present disclosure.
本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。 All publications, patent applications, and technical standards described in this specification are incorporated by reference into this specification to the same extent as if each individual publication, patent application, and technical standard was specifically and individually indicated to be incorporated by reference.
以上の実施形態に関し、更に以下を開示する。 The following is further disclosed regarding the above embodiment.
(付記1)
音声出力が困難な状態にある人の視線を追跡する手段と、追跡した視線情報をもとに過去の音声を再現する手段と、を含むシステム。
(付記2)
付記1に記載のシステムにおいて、視線追跡手段は、目の動きを検知するセンサーを使用することを特徴とする。
(付記3)
付記1に記載のシステムにおいて、音声再現手段は、過去の音声データを学習し、視線情報と組み合わせて音声を生成するニューラルネットワークを使用することを特徴とする。
(Appendix 1)
A system including a means for tracking the gaze of a person who is in a state where it is difficult to output voice, and a means for reproducing past voice based on the tracked gaze information.
(Appendix 2)
In the system described in Appendix 1, the gaze tracking means is characterized by using a sensor that detects eye movement.
(Appendix 3)
In the system described in Supplementary Note 1, the voice reproduction means is characterized by using a neural network that learns past voice data and combines it with gaze information to generate voice.
(付記4)
音声出力が困難な状態にある人の視線を追跡する手段と、追跡した視線情報をもとに過去の音声を再現する手段と、ユーザの感情を認識する感情エンジンとを含むシステム。
(付記5)
付記4に記載のシステムにおいて、感情エンジンは、音声再現時に適切な感情表現を生成するために、視線情報と音声データを分析し、感情を推定することを特徴とする。
(付記6)
付記4に記載のシステムにおいて、感情エンジンは、感情の変化に応じて音声のリアルタイムな調整を行うために、視線情報と感情推定結果をもとに音声合成パラメータを調整することを特徴とする。
(Appendix 4)
A system including a means for tracking the gaze of a person who is in a state where voice output is difficult, a means for reproducing past voice based on the tracked gaze information, and an emotion engine for recognizing the user's emotions.
(Appendix 5)
In the system described in Supplementary Note 4, the emotion engine is characterized by analyzing gaze information and voice data and estimating emotions in order to generate appropriate emotional expressions when reproducing voice.
(Appendix 6)
In the system described in Supplementary Note 4, the emotion engine is characterized in that it adjusts voice synthesis parameters based on gaze information and emotion estimation results in order to adjust the voice in real time in response to changes in emotion.
10、210、310、410 データ処理システム
12 データ処理装置
14 スマートデバイス
214 スマート眼鏡
314 ヘッドセット型端末
414 ロボット
10, 210, 310, 410
Claims (3)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2023168026A JP2025058129A (en) | 2023-09-28 | 2023-09-28 | system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2023168026A JP2025058129A (en) | 2023-09-28 | 2023-09-28 | system |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2025058129A true JP2025058129A (en) | 2025-04-09 |
Family
ID=95288323
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023168026A Pending JP2025058129A (en) | 2023-09-28 | 2023-09-28 | system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2025058129A (en) |
-
2023
- 2023-09-28 JP JP2023168026A patent/JP2025058129A/en active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2025058129A (en) | system | |
| JP2025063702A (en) | system | |
| JP2025055956A (en) | system | |
| JP2025051972A (en) | system | |
| JP2025045125A (en) | system | |
| JP2025046974A (en) | system | |
| JP2025053216A (en) | system | |
| JP2025046698A (en) | system | |
| JP2025046314A (en) | system | |
| JP2025052022A (en) | system | |
| JP2025046619A (en) | system | |
| JP2025049608A (en) | system | |
| JP2025045097A (en) | system | |
| JP2025048297A (en) | system | |
| JP2025053699A (en) | system | |
| JP2025052494A (en) | system | |
| JP2025055077A (en) | system | |
| JP2025048430A (en) | system | |
| JP2025050878A (en) | system | |
| JP2025056282A (en) | system | |
| JP2025053769A (en) | system | |
| JP2025050980A (en) | system | |
| JP2025055039A (en) | system | |
| JP2025055684A (en) | system | |
| JP2025045592A (en) | system |