JP2025071574A - Vehicle Dialogue System - Google Patents
Vehicle Dialogue System Download PDFInfo
- Publication number
- JP2025071574A JP2025071574A JP2023181854A JP2023181854A JP2025071574A JP 2025071574 A JP2025071574 A JP 2025071574A JP 2023181854 A JP2023181854 A JP 2023181854A JP 2023181854 A JP2023181854 A JP 2023181854A JP 2025071574 A JP2025071574 A JP 2025071574A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- text data
- unit
- vehicle
- driver
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Navigation (AREA)
Abstract
Description
本発明は、車両用対話システムに関する。 The present invention relates to a dialogue system for vehicles.
自動車用音声対話システムとして、ユーザーからシステムに対して話しかけると、システムがあらかじめ登録されている対話シナリオの中から回答として適しているものを選択し、音声に変えて応答するものが提案されている(特許文献1)。 A voice dialogue system for automobiles has been proposed in which, when a user speaks to the system, the system selects an appropriate answer from among pre-registered dialogue scenarios and responds by converting the answer into voice (Patent Document 1).
このような音声対話システムは、ユーザーの発話内容が多少曖昧であっても、あらかじめ記録されている対話シナリオから適宜回答を選択する。しかしながら、このような音声対話システムは、対話シナリオから選択された回答を、状況にかかわらず同様の口調で出力するため、運転者が回答に違和感を覚える場合があった。 This type of voice dialogue system selects an appropriate answer from a pre-recorded dialogue scenario even if the user's utterance is somewhat vague. However, this type of voice dialogue system outputs the answer selected from the dialogue scenario in the same tone of voice regardless of the situation, which can make the driver feel uncomfortable with the answer.
本発明は、上述した事情に鑑みてなされたものであり、その目的は、乗員に対しより自然な対話体験を与えることができる車両用対話システムを提供することにある。 The present invention has been made in consideration of the above-mentioned circumstances, and its purpose is to provide a dialogue system for a vehicle that can provide a more natural dialogue experience for occupants.
前述した目的を達成するために、本発明に係る車両用対話システムは、下記を特徴としている。
車両に搭載され、テキストデータから成る入力情報を入力すると、テキストデータから成る応答情報を出力する生成AIを利用した車両用対話システムであって、
乗員が発話した音声を入力する音声入力部と、
前記音声入力部により入力された前記音声を第1テキストデータに変換する音声認識部と、
前記音声及び前記第1テキストデータの少なくとも一方を入力して前記乗員の感情を推定し、推定結果を表す第2テキストデータを生成する感情推定部と、
前記第1テキストデータと、前記第2テキストデータと、を前記入力情報として前記生成AIに入力する制御部と、
前記生成AIからの前記応答情報を音声に変換する音声合成部と、
前記音声合成部により変換された前記音声を出力する音声出力部と、を備える、
車両用対話システム。
In order to achieve the above object, the vehicle dialogue system according to the present invention has the following features.
A vehicle dialogue system using a generation AI that is mounted on a vehicle and that outputs response information made up of text data when input information made up of text data is input,
a voice input unit for inputting a voice uttered by a passenger;
a voice recognition unit that converts the voice input by the voice input unit into first text data;
a feeling estimation unit that estimates a feeling of the occupant by inputting at least one of the voice and the first text data and generates second text data representing an estimation result;
a control unit that inputs the first text data and the second text data as the input information to the generation AI;
A voice synthesis unit that converts the response information from the generation AI into voice;
a voice output unit that outputs the voice converted by the voice synthesis unit,
Dialogue system for vehicles.
本発明によれば、運転者あるいは乗員に対しより自然な対話体験を与えることができる車両用対話システムを提供することができる。 The present invention provides a dialogue system for a vehicle that can provide a more natural dialogue experience for the driver or passengers.
以上、本発明について簡潔に説明した。更に、以下に説明される発明を実施するための形態(以下、「実施形態」という。)を添付の図面を参照して通読することにより、本発明の詳細は更に明確化されるであろう。 The present invention has been briefly described above. The details of the present invention will become clearer by reading the following description of the embodiment of the invention (hereinafter referred to as "embodiment") with reference to the attached drawings.
本発明に関する具体的な実施形態について、各図を参照しながら以下に説明する。
図1は、本発明の車両用対話システムの一実施形態を示すブロック図である。なお、以下の説明では、運転者が発話する場合を例にしているが、同乗者など車両に乗車しているいずれの乗員が発話する場合にも適用可能である。
Specific embodiments of the present invention will be described below with reference to the accompanying drawings.
Fig. 1 is a block diagram showing an embodiment of a vehicle dialogue system according to the present invention. In the following description, a case where the driver speaks is taken as an example, but the present invention can also be applied to a case where any occupant in the vehicle, such as a passenger, speaks.
本実施形態の車両用対話システム1は、車両に搭載され、生成AI(Artificial Intelligence)10を利用して、運転者と対話するシステムである。生成AI10は、例えばChatGPTから構成され、テキストデータから成る入力情報S1を入力するとテキストデータから成る応答情報S2を出力する。
The
車両用対話システム1は、音声入力部としてのマイク2と、通信モジュール3と、エージェントとして機能するマイクロコンピュータ4(以下、「マイコン4」と略記)と、音声出力部としてのスピーカ5と、表示部7とを備えている。マイク2は、運転者が発話した音声をマイコン4へ入力する。通信モジュール3は、インターネット通信網(図示せず)を介して生成AI10と通信を行うためのものであり、インターネット通信網に接続するための回路やアンテナなどで構成される。
The
マイコン4は、例えばRAM(Random Access Memory)やROM(Read Only Memory)などのメモリと、メモリに格納されたプログラムに従って動作するCPU(Central Processing Unit)と、を有し、車両用対話システム1全体の制御を司る。
The
マイコン4は、音声認識部41と、生成AI10に対する入力制御や接続されている機器の制御、これらの機器に対する出力制御などを実行する制御部としての音声対話部42と、音声合成部43と、感情推定部45と、を有している。音声認識部41は、マイク2により入力された音声信号をテキストデータ(第1テキストデータ)に変換して、音声対話部42及び感情推定部45に入力する。音声対話部42は、音声認識部41により変換されたテキストデータに、感情推定部45により決定された運転者の感情に応じたテキストデータ(第2テキストデータ)や、運転者が発話したときの運転者または運転者が運転する車両の状態、または、状態に応じた命令を示すテキストデータ(第3テキストデータ)を付与して入力情報S1として生成AI10に入力する。
The
また、音声対話部42には、車両に搭載されている複数のセンサからの車両情報S3が入力されている。センサとしては、車外の照度を計測する照度センサ、外気温を計測する温度センサ、車両位置を検出するGPS(Global Positioning System)、座席に人が座っているか否かを検出する着座センサ、車両の速度を検出する速度センサなどが考えられる。センサから入力される車両情報S3は、センサが計測した計測値だけでなく、計測値の移動平均や加重平均であってもよいし、計測値や計測値の移動平均、加重平均を使って演算された値であってもよい。
Vehicle information S3 is also input to the
また、音声対話部42には、運転者の顔を撮影した画像に基づいて運転者の状態(表情、居眠り、漫然運転、わき見運転をしているか否か)を検出するドライバモニタからの検出結果である人情報S4が入力されている。また、音声対話部42には、車両の異常(エンジン異常、油圧異常、水温異常、充電異常など)を検出して警告ランプの点灯させる異常検出部からの検出結果である警告情報が入力されてもよい。
The
また、音声対話部42は、車両に搭載された車両機器11に接続されていて、車両機器11の制御を行うことができる。車両機器11としては、例えば、車両に搭載されたエアーコンディション、ヘッドアップディスプレイなどの表示器、オーディオ機器が考えられる。
The
音声対話部42は、生成AI10からの応答情報S2を入力し、入力した応答情報S2を音声合成部43に出力する。音声合成部43は、応答情報S2を音声信号に変換して、スピーカ5に出力する。スピーカ5は、音声合成部43により変換された音声を出力する。表示部7は、運転席近傍に設置されるモニタやヘッドアップディスプレイ(HUD)など、運転者に対し情報を表示可能な画面を有する手段により構成されている。マイコン4は、スピーカ5により音声が出力される際に、音声に連動したキャラクター表示を画面上で行う。
The
感情推定部45は、マイク2から入力された音声信号及び音声認識部41から入力されたテキストデータに基づいて運転者の感情をリアルタイムで推定し、推定結果を示すテキストデータを生成して音声対話部42に入力する。
The
感情推定部45は、マイク2から入力された音声信号の波形から、運転者の声のトーン、強弱、話速、スペクトル特性などの特徴量を抽出する。また、感情推定部45は、音声認識部41から入力されたテキストデータから、感情を示している表現や言い回しなどを抽出し、感情を表す特徴量に変換する。これらの特徴量と感情の区分とは対応マップとして感情推定部45に記憶されている。感情の区分は、例えば「喜び」「怒り」「悲しみ」「驚き」「中立」に分けられている。
The
一例として、対応マップは、あらかじめ初期値により特徴量と各区分とが対応付けられている。したがって、感情推定部45は、特徴量を抽出すると、対応マップを参照して運転者の現在の感情を決定し、テキストデータとして音声対話部42に入力する。
As an example, the correspondence map is a map in which features are associated with each category using initial values in advance. Therefore, when the
また、感情推定部45は、音声信号から抽出される特徴量と、音声認識部41から入力されたテキストデータとを比較して、対応マップで感情の各区分に対応付けられている特徴量を補正するようにしてもよい。
The
感情推定部45は、対応マップによって決定された運転者の感情を、テキストデータとして音声対話部42に出力する。音声対話部42は、感情推定部45により推定された感情に応じたテキストデータを、生成AI10に入力する入力情報S1に追加する。例えば、感情推定部45により運転者の感情が「怒り」と決定された場合、音声対話部42は、「怒りを和らげるような言葉で」という指示を追加する。これにより、生成AI10は、怒りを鎮めるような内容や、穏やかな言葉遣いの回答を生成することができる。
The
なお、感情推定部45は、決定された運転者の感情を継続的に保持するようにしてもよい。この場合、設定により感情が保持される継続期間を無期限にしたり所定時間などの有期限にするよう設定できると好適である。また、このように感情が保持される場合には、マイコン4が、感情推定部45に保持されている感情を乗員による入力または車両の状況が所定の条件を満たしたことなどによってリセットできるように構成されていると好適である。
The
次に、上述した構成の車両用対話システム1の動作について図2に示すフローチャートを参照して説明する。マイコン4は、イグニッションオン(IG-ON)を検知すると(Sp1)、生成AI10に対して運転者及び車両の状態を示すテキストデータを送信する(Sp2)。この運転者及び車両の状態を示すテキストデータの一例としては、「これから話し相手が車に乗ります。車に乗っていることを考えた内容で会話してください。」というものが考えられる。これにより、生成AI10が、話し相手(運転者)が車に乗っているという状態を理解し、以降は車に乗っていることが前提の対話内容となる。
Next, the operation of the
また、Sp2において、マイコン4は、制御できる車両機器11の情報のテキストデータを送信するようにしてもよい。このテキストデータの一例としては、「話し相手との会話に応じて、エアコンの温度、風量の調節、ヘッドアップディスプレイの輝度調整、オーディオの制御を提案できます。」というものが考えられる。これにより、生成AI10が、運転者が乗車している車両においてエアコンの温度、風量の調節、ヘッドアップディスプレイの輝度調整、オーディオの制御ができるという状態を理解できる。
In addition, in Sp2, the
また、Sp2において、マイコン4は、着座センサからの検出結果に基づいて車両に乗車している人数を判定し、判定された人数を生成AI10に送信するようにしてもよい。このテキストデータの一例としては、「運転者しか乗車していません」や「運転者を含めて2名乗車しています。」というものが考えられる。これにより、生成AI10は、運転者が一人なのか、他に乗車している人がいる状態なのかを理解できる。
In addition, in Sp2, the
次に、マイコン4は、上述した車両情報S3や人情報S4を取得する(Sp3)。その後、マイコン4は、運転者が発話すると(Sp4でY)、運転者が発話した音声をテキストデータに変換する音声認識処理と、音声に基づいた運転者の感情推定を行う(Sp5)。次に、マイコン4は、音声認識処理により変換したテキストデータに、Sp3で推定された運転者の感情や、発話したときの運転者及び車両の状態、または、状態に応じた命令(テキストデータ)を付与し、入力情報S1として生成AI10に送信する(Sp6)。
Next, the
Sp6においてマイコン4は、Sp5において推定された運転者の感情に応じて、運転者の感情がポジティブになる回答を得るためのプロンプト調整用のテキストデータを生成する。そして、マイコン4は、生成したテキストデータを、Sp3で取得した車両情報S3や人情報S4を示すテキストデータとともに、入力情報S1に付与することが考えられる。また、マイコン4は、車両が運転中か、停車中か、信号待ち中かを示すテキストデータを、車両の状態を示すテキストデータとして付与することが考えられる。
In Sp6, the
また、マイコン4は、運転者が発話したときの運転者の運転負荷が高いか否かを判定する。運転負荷が高いか否かは、例えば、速度センサからの速度(車両情報S3)や人情報S4に基づいて判定できる。また、予め登録された運転者の属性(運転に慣れた人か/そうでない人か、車両の機器に詳しい人か/そうでない人か)に基づいて判断してもよい。マイコン4は、運転者が発話したときに運転負荷が高いと判定した場合、応答情報S2を短くする旨のテキストデータを状態に応じた命令として付与することが考えられる。このときのテキストデータの一例としては、「回答は要約してください」というものが考えられる。
The
その後、マイコン4は、Sp7で送信した入力情報S1に応じた応答情報S2を受信し(Sp7)、受信した応答情報S2を音声に変換してスピーカ5から出力する(Sp8)。次に、マイコン4は、イグニッションオフ(IG-OFF)を検知すると(Sp9でY)、処理を終了する。これに対して、マイコン4は、イグニッションオフが検知されなければ(Sp9でN)、再びSp3に戻る。
Then, the
また、マイコン4は、Sp3を実行後、運転者が発話していなければ(Sp4でN)、Sp3により取得した情報S3~S4に基づいて予め定めた提案条件が成立していれば(Sp10)、提案内容を音声データに変換してスピーカ5から出力した後(Sp11)、Sp3に戻る。Sp11の提案条件としては、例えば、速度センサにより計測された速度(車両情報S3)が早ければ、速度を下げる提案条件が成立したとして、速度を下げる提案をスピーカ5から出力する。
Furthermore, after executing Sp3, if the driver has not spoken (N in Sp4), or if a predetermined proposal condition based on the information S3-S4 acquired by Sp3 is met (Sp10), the
なお、以上のような制御が実行される際に、マイコン4は、車両のディスプレイにキャラクターを表示し、スピーカ5からの音声の出力に合わせてキャラクターがあたかも運転者に話しかけているように表示するようにしてもよい。この場合、運転者の感情に応じてマイコン4が自動的にキャラクターや表情などの見かけを変更したり、運転者が操作によりキャラクターを変更するようにしてもよい。
When the above-mentioned control is executed, the
マイコン4が自動的にキャラクターの表情を変更する場合には、例えば、「怒り」や「悲しみ」など、運転者の感情がネガティブである場合には、上述したように、音声対話部42が生成AI10に対し、運転者の感情がポジティブになるような回答をするよう指示を追加するが、これに合わせ、キャラクターの表情や動きも、優しさを表したり、ゆっくりした動きにするなど、運転者の感情がポジティブになるように表示する。逆に、運転者の感情がポジティブである場合には、キャラクターの表情も嬉しさを表すことにより、運転者のポジティブな感情に共感するような表示を行う。
When the
また、別の例として、運転者の感情がネガティブである場合には、マイコン4がキャラクターの感情を最もポジティブに誘導しやすいキャラクターに変更してもよい。いずれのキャラクターへの変更が運転者の感情をポジティブにするために最も効果的であるかを判断するには、例えば、音声対話部42がキャラクターを変更した後の運転者の感情の変化をデータとして蓄積することにより行われる。つまり、運転者とエージェントとが会話を重ねることにより、キャラクターやその回答内容が運転者の好みに最適化されていく。
As another example, if the driver's emotions are negative, the
図3は、エージェントの状態遷移図である。図4は、エージェントの状態を説明する図である。
表示部7の画面にエージェントの機能に連動したキャラクターが表示される場合には、マイコン4は、まずスリープ状態にある。スリープ状態において、キャラクターは、基本画面の表示や操作の表示の邪魔にならないように小さくなっている。
Fig. 3 is a state transition diagram of an agent, and Fig. 4 is a diagram for explaining the states of an agent.
When a character linked to the function of an agent is displayed on the screen of the display unit 7, the
運転者が発声したウェイクアップワードがマイク2に入力されると、マイコン4は、ウェイクアップの状態に遷移し、エージェントとしての機能を開始する。この状態で、マイコン4は運転者の発話を待っている。もし所定時間待っても運転者の発話がなければ、マイコンはスリープ状態に移行する。運転者が所定時間以内に発話した場合には、マイコン4はヒアリング状態に移行し、音声認識や解析を実行する。
When the wake-up word spoken by the driver is input to the
マイコン4は、運転者の発話から生成されたテキストデータや、運転者の感情、運転者や車両の状態に基づいて生成されたテキストデータから入力情報S1を生成し、生成AI10に送信している間は、ウェイト状態となる。そして、生成AI10からテキストデータの応答情報S2を受信すると、スピーチ状態に移行し、スピーカ5から応答情報を表す音声を出力するとともに、音声に合わせたキャラクター表示を行う。
The
スピーチ状態において、応答情報S2の音声による出力中に運転者が発話を開始した場合には、マイコン4は、ヒアリング状態に移行するバージイン機能を実行する。バージイン機能の実行により中断された応答情報の出力は、状況に応じて運転者の発話後に再開するか、そのまま終了する。例えば、応答情報S2が運転に関し重要な情報である場合には、運転者の発話後に中断された残りの応答情報の出力を再開し、重要度が低い場合には、そのまま終了するようにしてもよい。
In the speech state, if the driver starts speaking while the response information S2 is being output by voice, the
マイコン4は、スピーチ状態で、応答情報S2の音声による出力が終了すると、ウェイクアップモードに移行し、再び話者の発話を待つ。
When the
なお、タッチパネルのように表示部7の画面がユーザによる操作画面を兼ねている場合には、運転者はドラッグ操作などによってキャラクターの表示位置を変更したり、複数の指を使ってキャラクターの表示サイズを拡大、縮小できるようにしてもよい。また、キャラクターの変更を含むエージェント機能の設定画面が表示されている状態では、マイコン4は、画面上でのキャラクター表示を中断する。
When the screen of the display unit 7 doubles as a user operation screen, such as a touch panel, the driver may change the display position of the character by dragging or the like, or may enlarge or reduce the display size of the character using multiple fingers. Also, when a setting screen for the agent function, including changing the character, is displayed, the
図5は、第2実施形態の車両用対話システムを示すブロック図である。
本実施形態において、第1実施形態と同じ構成については同じ符号を付与しその説明を省略する。
FIG. 5 is a block diagram showing a vehicle dialogue system according to the second embodiment.
In this embodiment, the same components as those in the first embodiment are given the same reference numerals and the description thereof will be omitted.
第2実施形態において、感情推定部45は、車両情報S3及び人情報S4を入力し、感情を表す特徴量を抽出する。例えば、感情推定部45は、アクセル開度やブレーキ踏力、あるいは車両の加速度を示す情報が普段より大きく、運転者の表情が「怒り」に該当する場合には、これらの情報を運転者の「怒り」に関連が強くなる特徴量として抽出する。感情推定部45は、上述した音声信号に基づく特徴量と、車両情報S3から得られた特徴量と人情報S4から得られた運転者の表情の検出結果を所定の比率で合算し、対応マップに基づいて、最終的な運転者の感情を決定する。なお、感情推定部45は、車両情報S3及び人情報S4のうち一方のみを入力するようにしてもよい。
In the second embodiment, the
なお、本発明は、上述した実施形態に限定されるものではなく、適宜、変形、改良、等が可能である。その他、上述した実施形態における各構成要素の材質、形状、寸法、数、配置箇所、等は本発明を達成できるものであれば任意であり、限定されない。 The present invention is not limited to the above-described embodiment, and can be modified, improved, etc. as appropriate. In addition, the material, shape, size, number, location, etc. of each component in the above-described embodiment are arbitrary as long as they can achieve the present invention, and are not limited.
例えば、感情推定部45は、感情の区分に加え、運転者の疲労度合いを推定し、感情の決定に加えて、あるいは感情の決定に変えて、運転者の疲労度合いを示すテキストデータを音声対話部42に入力してもよい。一例として、音声対話部42は、運転者が疲労している場合には生成AI10に入力する入力情報S1に「優しく語り掛けるような言葉で」という指示を追加する。
For example, the
また、マイコン4は、運転者と同乗者の雰囲気に応じて回答やキャラクターを変更してもよい。例えば、マイク2に運転者と同乗者の双方の音声が入力された場合、それぞれの音声信号を示すテキストデータが音声認識部41から感情推定部45に入力される。感情推定部45が、運転者と同乗者のいずれの感情もネガティブであると決定した場合には、音声対話部42は、それを受けて「喧嘩を仲裁するような言葉で」などの指示を入力情報S1に追加する。また、音声対話部42は、感情推定部45から得られた運転者と同乗者の感情がいずれもポジティブで、運転者と同乗者の発話量が多い場合には、運転者と同乗者の会話を邪魔しないよう、「明るい雰囲気でなるべく短めの言葉で」などの指示を入力情報S1に追加する。逆に、運転者と同乗者の感情がいずれもポジティブであるにもかかわらず、運転者と同乗者の発話量が少ない場合には、「明るい雰囲気で長めの言葉で」とか「豆知識も追加して」などの指示を入力情報S1に追加する。
The
また、マイコン4は、車両の走行シーンに応じて、キャラクターや口調を変更するようにしてもよい。例えば、マイコン4は、同じキャラクターを表示する場合でも、夏と冬、日中と夜間、晴天と雨天など、走行シーンの違いによって衣装を変更したり、キャラクターそのものを変更してもよい。
The
また、上記実施形態では、感情推定部45は、音声認識部41からのテキストデータ、または当該テキストデータと車両情報S3に基づいて感情を推定する場合について説明したが、状況に応じては車両情報S3のみに応じて感情を推定するようにしてもよい。
In addition, in the above embodiment, the
また、感情推定部45は、人情報S4を入力し、人情報S4から運転者の感情を示す特徴量を抽出して、感情を決定する際のパラメータの1つとしてもよい。また、感情推定部45は、生成AI10からの回答に対する運転者の更なる質問などの発話の音声に含まれる特徴量や、発話の分量などから、運転者がどのような感情のときにどのようなキャラクターや回答の口調を用いると運転者がポジティブになるかを情報として蓄積し、状況に応じたキャラクターの設定変更を行うようにする。
The
ここで、上述した本発明の実施形態に係る車両用対話システムの特徴をそれぞれ以下[1]~[4]に簡潔に纏めて列記する。 Here, the features of the vehicle dialogue system according to the embodiment of the present invention described above are briefly summarized and listed below in [1] to [4].
[1] 車両に搭載され、テキストデータから成る入力情報(S1)を入力すると、テキストデータから成る応答情報(S2)を出力する生成AI(10)を利用した車両用対話システム(1)であって、
乗員が発話した音声を入力する音声入力部(2)と、
前記音声入力部により入力された前記音声を第1テキストデータに変換する音声認識部(41)と、
前記音声及び前記第1テキストデータの少なくとも一方を入力して前記乗員の感情を推定し、推定結果を表す第2テキストデータを生成する感情推定部(45)と、
前記第1テキストデータと、前記第2テキストデータと、を前記入力情報(S1)として前記生成AI(10)に入力する制御部(42)と、
前記生成AI(10)からの前記応答情報(S2)を音声に変換する音声合成部(43)と、
前記音声合成部(43)により変換された前記音声を出力する音声出力部(5)と、を備える、
車両用対話システム。
[1] A vehicle dialogue system (1) that uses a generation AI (10) that is mounted on a vehicle and that outputs response information (S2) made of text data when input information (S1) made of text data is input,
A voice input unit (2) for inputting a voice uttered by a passenger;
a voice recognition unit (41) for converting the voice input by the voice input unit into first text data;
an emotion estimation unit (45) that receives at least one of the voice and the first text data to estimate an emotion of the occupant and generate second text data representing an estimation result;
A control unit (42) that inputs the first text data and the second text data as the input information (S1) to the generation AI (10);
a voice synthesis unit (43) that converts the response information (S2) from the generation AI (10) into voice;
a voice output unit (5) that outputs the voice converted by the voice synthesis unit (43),
Dialogue system for vehicles.
上記[1]の構成によれば、生成AIから出力を得る際に、乗員の感情を加味した回答を得ることができる。したがって、乗員に対し回答を音声により提示する際に、同じ内容の回答でも、乗員の感情に応じて口調や言葉遣いを変化させることができるので、乗員は対話システムに対して親近感を覚えることができる。また、乗員の感情がネガティブである場合には、それを加味した回答を出力することができるので、乗員の感情をさらに悪化させることを防止できる。 According to the configuration [1] above, when obtaining output from the generation AI, it is possible to obtain an answer that takes into account the emotions of the occupant. Therefore, when presenting an answer to the occupant by voice, even if the answer has the same content, the tone and wording can be changed depending on the emotions of the occupant, so that the occupant can feel a sense of familiarity with the dialogue system. In addition, if the occupant's emotions are negative, an answer that takes these into account can be output, thereby preventing the occupant's emotions from worsening further.
[2] 前記制御部(42)は、前記第2テキストデータにより示される感情に応じた付加情報を生成し、前記入力情報(S1)に付加して前記生成AI(10)に入力する、
上記[1]に記載の車両用対話システム。
[2] The control unit (42) generates additional information corresponding to the emotion indicated by the second text data, adds the additional information to the input information (S1), and inputs the additional information to the generation AI (10).
The vehicle dialogue system according to [1] above.
上記[2]の構成によれば、車両用対話システムは生成AIに対し、乗員の感情に応じてより具体的に回答に対する口調や言葉遣いなどを指定できるので、乗員の感情に沿った適切な回答を提供することができる。 According to the configuration of [2] above, the vehicle dialogue system can specify to the generation AI the tone and wording of the response more specifically according to the occupant's emotions, so that an appropriate response can be provided that matches the occupant's emotions.
[3] 前記感情推定部(45)は、推定結果としてあらかじめ区分された複数のカテゴリーにより示される感情の1つを選択し、選択された結果を第2テキストデータとして前記制御部(42)に入力するとともに、選択された前記結果を継続的に保持またはリセットすることができる、
上記[1]又は[2]に記載の車両用対話システム。
[3] The emotion estimation unit (45) selects one of emotions indicated by a plurality of categories classified in advance as an estimation result, inputs the selected result to the control unit (42) as second text data, and continuously holds or resets the selected result.
The vehicle dialogue system according to any one of
上記[3]の構成によれば、車両用対話システムはあらかじめ乗員の感情をカテゴリー化しているので、乗員の感情を誤って認識する可能性を抑制できる。また、各カテゴリーに対応付けられている乗員の音声の特徴量などを補正できるので、乗員の発話が増えることにより乗員の感情をより正確に判断することができるようになる。 According to the configuration of [3] above, the vehicle dialogue system categorizes the occupant's emotions in advance, which reduces the possibility of erroneously recognizing the occupant's emotions. In addition, the vehicle dialogue system can correct the features of the occupant's voice associated with each category, so that the occupant's emotions can be judged more accurately as the occupant speaks more.
[4] 乗員に対し画像情報を提示する画面を有する表示部(7)を備え、
前記制御部(42)は、前記画面に表示されるキャラクターの見かけ又は種類を変更する、
上記[1]から[3]のいずれかに記載の車両用対話システム。
[4] A display unit (7) having a screen for presenting image information to an occupant,
The control unit (42) changes the appearance or type of the character displayed on the screen.
The vehicle dialogue system according to any one of [1] to [3] above.
上記[4]の構成によれば、車両用対話システムは、乗員の感情に応じて、出力される音声に加え、表示されるキャラクターも変化させることにより、乗員は、視覚及び聴覚のいずれにおいても車両用対話システムに親近感を覚えることができる。 According to the configuration of [4] above, the vehicle dialogue system changes not only the voice output but also the character displayed according to the occupant's emotions, allowing the occupant to feel a sense of familiarity with the vehicle dialogue system both visually and aurally.
1 車両用対話システム
2 マイク
3 通信モジュール
4 マイクロコンピュータ
5 スピーカ
7 表示部
10 生成AI
11 車両機器
41 音声認識部
42 音声対話部(制御部)
43 音声合成部
45 感情推定部
S1 入力情報
S2 応答情報
S3 車両情報
S4 人情報
11
43
Claims (4)
乗員が発話した音声を入力する音声入力部と、
前記音声入力部により入力された前記音声を第1テキストデータに変換する音声認識部と、
前記音声及び前記第1テキストデータの少なくとも一方を入力して前記乗員の感情を推定し、推定結果を表す第2テキストデータを生成する感情推定部と、
前記第1テキストデータと、前記第2テキストデータと、を前記入力情報として前記生成AIに入力する制御部と、
前記生成AIからの前記応答情報を音声に変換する音声合成部と、
前記音声合成部により変換された前記音声を出力する音声出力部と、を備える、
車両用対話システム。 A vehicle dialogue system using a generation AI that is mounted on a vehicle and that outputs response information made up of text data when input information made up of text data is input,
a voice input unit for inputting a voice uttered by a passenger;
a voice recognition unit that converts the voice input by the voice input unit into first text data;
a feeling estimation unit that estimates a feeling of the occupant by inputting at least one of the voice and the first text data and generates second text data representing an estimation result;
a control unit that inputs the first text data and the second text data as the input information to the generation AI;
A voice synthesis unit that converts the response information from the generation AI into voice;
a voice output unit that outputs the voice converted by the voice synthesis unit,
Dialogue system for vehicles.
請求項1に記載の車両用対話システム。 The control unit generates additional information corresponding to the emotion indicated by the second text data, adds the additional information to the input information, and inputs the additional information to the generation AI.
The vehicle dialogue system according to claim 1 .
請求項1に記載の車両用対話システム。 The emotion deduction unit selects one of emotions indicated by a plurality of categories classified in advance as an estimation result, inputs the selected result to the control unit as second text data, and continuously holds or resets the selected result.
The vehicle dialogue system according to claim 1 .
前記制御部は、前記画面に表示されるキャラクターの見かけ又は種類を変更する、
請求項1に記載の車両用対話システム。 A display unit having a screen for presenting image information to an occupant,
The control unit changes the appearance or type of the character displayed on the screen.
The vehicle dialogue system according to claim 1 .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023181854A JP2025071574A (en) | 2023-10-23 | 2023-10-23 | Vehicle Dialogue System |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023181854A JP2025071574A (en) | 2023-10-23 | 2023-10-23 | Vehicle Dialogue System |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2025071574A true JP2025071574A (en) | 2025-05-08 |
Family
ID=95584754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023181854A Pending JP2025071574A (en) | 2023-10-23 | 2023-10-23 | Vehicle Dialogue System |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2025071574A (en) |
-
2023
- 2023-10-23 JP JP2023181854A patent/JP2025071574A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10839583B2 (en) | Emotive advisory system and method | |
EP3886086B1 (en) | Emotionally responsive virtual personal assistant | |
US20160288708A1 (en) | Intelligent caring user interface | |
CN113614713A (en) | Human-computer interaction method, device, equipment and vehicle | |
JP2018063486A (en) | Service providing apparatus, service providing method, and service providing program | |
JP2019158975A (en) | Utterance system | |
JP6075577B2 (en) | Driving assistance device | |
US20240402989A1 (en) | Human-computer interaction method and apparatus, and terminal device | |
JP7222757B2 (en) | AGENT DEVICE, CONTROL METHOD OF AGENT DEVICE, AND PROGRAM | |
CN115830724A (en) | Vehicle-mounted recognition interaction method and system based on multi-mode recognition | |
CN118435275A (en) | Voice assistant optimization depending on vehicle occupancy | |
CN119690245A (en) | Vehicle-mounted interaction system and vehicle-mounted interaction method | |
CN119181356A (en) | Vehicle-mounted voice interaction method, device, equipment, program product and automobile | |
JP2019053785A (en) | Service providing equipment | |
JP2025071574A (en) | Vehicle Dialogue System | |
US20230290342A1 (en) | Dialogue system and control method thereof | |
JP2018083583A (en) | Vehicle emotion display device, vehicle emotion display method, and vehicle emotion display program | |
US20230419971A1 (en) | Dynamic voice assistant system for a vehicle | |
KR20230036843A (en) | Method for suggestiing speech and recording medium | |
WO2025089204A1 (en) | Dialog system for vehicle | |
US20230395078A1 (en) | Emotion-aware voice assistant | |
JP2024155784A (en) | Behavior Control System | |
CN120207246A (en) | Automobile cockpit control method, computer device and storage medium | |
JP2025071573A (en) | Vehicle Dialogue System | |
CN116533232A (en) | Control method and device of vehicle-mounted robot and vehicle-mounted robot |