JP7689787B1 - Information processing device, information processing method, and program - Google Patents
Information processing device, information processing method, and program Download PDFInfo
- Publication number
- JP7689787B1 JP7689787B1 JP2025046733A JP2025046733A JP7689787B1 JP 7689787 B1 JP7689787 B1 JP 7689787B1 JP 2025046733 A JP2025046733 A JP 2025046733A JP 2025046733 A JP2025046733 A JP 2025046733A JP 7689787 B1 JP7689787 B1 JP 7689787B1
- Authority
- JP
- Japan
- Prior art keywords
- information
- response
- utterance
- response information
- outputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【課題】AIエージェントによる通話を効率化すること。
【解決手段】対象者の発話に関する発話情報を取得する取得部100であって、発話情報は、第1の発話に関する第1発話情報と、当該第1の発話より後の第2の発話に関する第2発話情報とを含む、取得部100と、第1発話情報を含む第1応答決定指示を大規模言語モデルに入力することによって、発話の少なくとも一部に対する応答に関する第1応答情報を決定する第1応答決定部102aと、発話に関する所定の条件が満たされる場合に、第1応答情報を対象者に出力する前に、第1発話情報及び/又は第1応答情報と、第2発話情報とを含む第2応答決定指示を大規模言語モデルに入力することによって、発話の少なくとも一部に対する他の応答に関する第2応答情報を決定する第2応答決定部102bと、所定の条件が満たされない場合には第1応答情報を出力し、所定の条件が満たされる場合には第1応答情報及び第2応答情報の少なくとも一方を出力する出力部106と、を備える、情報処理装置2。
【選択図】図1
[Problem] To improve the efficiency of calls made by AI agents.
[Solution] An information processing device 2 includes: an acquisition unit 100 that acquires speech information regarding a target person's utterance, the speech information including first utterance information regarding a first utterance and second utterance information regarding a second utterance subsequent to the first utterance; a first response determination unit 102a that determines first response information regarding a response to at least a part of the utterance by inputting a first response determination instruction including the first utterance information into a large-scale language model; a second response determination unit 102b that determines second response information regarding another response to at least a part of the utterance by inputting a second response determination instruction including the first utterance information and/or the first response information and the second utterance information into the large-scale language model before outputting the first response information to the target person when a specified condition regarding the utterance is satisfied; and an output unit 106 that outputs the first response information when the specified condition is not satisfied, and outputs at least one of the first response information and the second response information when the specified condition is satisfied.
[Selected Figure] Figure 1
Description
本開示は、情報処理装置、情報処理方法及びプログラムに関する。 The present disclosure relates to an information processing device, an information processing method, and a program.
従来、通話に音声認識を用いる技術が知られている。例えば、特許文献1には、未登録または非通知の電話番号からの着信時に、生成系AI(Artificial Intelligence)が応答し、通話終了後に用件を文書化して送信するシステムにおいて、家族や知人の確認手段や悪用歴のある番号の警察連携手段を提供する技術が記載されている。
Conventionally, technology that uses voice recognition for phone calls is known. For example,
しかしながら、特許文献1に記載された技術では、AIエージェントによる通話を十分に効率化することができない。例えば、対象者に対するレスポンスの遅延を抑制することに関して検討の余地がある。
However, the technology described in
本開示は、AIエージェントによる通話を効率化することができる情報処理装置、情報処理方法及びプログラムを提供する。 The present disclosure provides an information processing device, an information processing method, and a program that can improve the efficiency of calls made by AI agents.
本開示の一態様に係る情報処理装置は、対象者の発話に関する発話情報を取得する取得部であって、発話情報は、第1の発話に関する第1発話情報と、当該第1の発話より後の第2の発話に関する第2発話情報とを含む、取得部と、第1発話情報を含む第1応答決定指示を大規模言語モデルに入力することによって、発話の少なくとも一部に対する応答に関する第1応答情報を決定する第1応答決定部と、発話に関する所定の条件が満たされる場合に、第1応答情報を対象者に出力する前に、第1発話情報及び/又は第1応答情報と、第2発話情報とを含む第2応答決定指示を大規模言語モデルに入力することによって、発話の少なくとも一部に対する他の応答に関する第2応答情報を決定する第2応答決定部と、所定の条件が満たされない場合には第1応答情報を出力し、所定の条件が満たされる場合には第1応答情報及び第2応答情報の少なくとも一方を出力する出力部と、を備える。 An information processing device according to one aspect of the present disclosure includes an acquisition unit that acquires speech information related to an utterance of a target person, the speech information including first utterance information related to a first utterance and second utterance information related to a second utterance subsequent to the first utterance; a first response determination unit that determines first response information related to a response to at least a part of the utterance by inputting a first response determination instruction including the first utterance information into a large-scale language model; a second response determination unit that determines second response information related to another response to at least a part of the utterance by inputting a second response determination instruction including the first utterance information and/or the first response information and the second utterance information into the large-scale language model before outputting the first response information to the target person when a predetermined condition related to the utterance is satisfied; and an output unit that outputs the first response information when the predetermined condition is not satisfied and outputs at least one of the first response information and the second response information when the predetermined condition is satisfied.
本開示の他の一態様に係る情報処理方法は、情報処理装置が、対象者の発話に関する発話情報を取得することであって、発話情報は、第1の発話に関する第1発話情報と、当該第1の発話より後の第2の発話に関する第2発話情報とを含む、発話情報を取得することと、第1発話情報を含む第1応答決定指示を大規模言語モデルに入力することによって、発話の少なくとも一部に対する応答に関する第1応答情報を決定することと、発話に関する所定の条件が満たされる場合に、第1応答情報を対象者に出力する前に、第1発話情報及び/又は第1応答情報と、第2発話情報とを含む第2応答決定指示を大規模言語モデルに入力することによって、発話の少なくとも一部に対する他の応答に関する第2応答情報を決定することと、所定の条件が満たされない場合には第1応答情報を出力し、所定の条件が満たされる場合には第1応答情報及び第2応答情報の少なくとも一方を出力することと、を実行する。 An information processing method according to another aspect of the present disclosure includes an information processing device acquiring speech information related to an utterance of a target person, the speech information including first utterance information related to a first utterance and second utterance information related to a second utterance subsequent to the first utterance, determining first response information related to a response to at least a part of the utterance by inputting a first response determination instruction including the first utterance information into a large-scale language model, determining second response information related to another response to at least a part of the utterance by inputting a second response determination instruction including the first utterance information and/or the first response information and the second utterance information into the large-scale language model before outputting the first response information to the target when a predetermined condition related to the utterance is satisfied, and outputting the first response information when the predetermined condition is not satisfied, and outputting at least one of the first response information and the second response information when the predetermined condition is satisfied.
本開示の他の一態様に係るプログラムは、情報処理装置に、対象者の発話に関する発話情報を取得することであって、発話情報は、第1の発話に関する第1発話情報と、当該第1の発話より後の第2の発話に関する第2発話情報とを含む、発話情報を取得することと、第1発話情報を含む第1応答決定指示を大規模言語モデルに入力することによって、発話の少なくとも一部に対する応答に関する第1応答情報を決定することと、発話に関する所定の条件が満たされる場合に、第1応答情報を対象者に出力する前に、第1発話情報及び/又は第1応答情報と、第2発話情報とを含む第2応答決定指示を大規模言語モデルに入力することによって、発話の少なくとも一部に対する他の応答に関する第2応答情報を決定することと、所定の条件が満たされない場合には第1応答情報を出力し、所定の条件が満たされる場合には第1応答情報及び第2応答情報の少なくとも一方を出力することと、を実行させる。 A program according to another aspect of the present disclosure causes an information processing device to execute the following: acquire speech information regarding an utterance of a target person, the speech information including first utterance information regarding a first utterance and second utterance information regarding a second utterance subsequent to the first utterance; determine first response information regarding a response to at least a portion of the utterance by inputting a first response determination instruction including the first utterance information into a large-scale language model; determine second response information regarding another response to at least a portion of the utterance by inputting a second response determination instruction including the first utterance information and/or the first response information and the second utterance information into the large-scale language model before outputting the first response information to the target when a predetermined condition regarding the utterance is satisfied; output the first response information when the predetermined condition is not satisfied, and output at least one of the first response information and the second response information when the predetermined condition is satisfied.
本開示によれば、AIエージェントによる通話を効率化することができる。 This disclosure makes it possible to make calls using AI agents more efficient.
1 概要
本実施形態では、対象者は、自身の端末装置を利用してAIエージェントと通話をする状況を想定する。すなわち、対象者の端末装置は、当該対象者の発話を音声入力装置(例えば、マイク等)を介して受け付けることによって音声情報を生成し、当該音声情報を情報処理装置(例えば、サーバ装置等)に対して送信し、AIエージェントによる応答に関する応答情報を取得する。この応答情報は、端末装置において音声による出力される。これにより、対象者は、端末装置を介してあたかもAIエージェントと会話しているかのように体感することができる。本実施形態に係るシステム1(以下、単に「システム1」と称する)が解決しようとする課題の一つは、このような状況下におけるAIエージェントとの通話を効率化することである。
1. Overview In this embodiment, a situation is assumed in which a subject uses his/her own terminal device to talk to an AI agent. That is, the subject's terminal device generates voice information by receiving the subject's speech via a voice input device (e.g., a microphone, etc.), transmits the voice information to an information processing device (e.g., a server device, etc.), and acquires response information regarding a response by the AI agent. This response information is output by voice in the terminal device. This allows the subject to experience as if he/she is talking to the AI agent via the terminal device. One of the problems that the
図1を参照して、システム1の概要について説明する。システム1は、端末装置3、情報処理装置2、及びLLMサーバ装置4を含む。端末装置3は、対象者が利用する装置である。情報処理装置2は、AIエージェントによる通話を効率化することに関する処理の少なくとも一部を実行する装置である。LLMサーバ装置4は、大規模言語モデル(LLM:Large Language Model、以下「LLM」と称する)に基づくサービスを提供する装置である。
An overview of
端末装置3は、音声入力装置を介して対象者の発話を受け付けることによって第1音声情報を生成し、情報処理装置2に対して送信する(S1)。情報処理装置2は、第1音声情報に基づいて第1発話情報を取得する。第1発話情報は、第1音声情報を文字起こししたテキストデータを含んでよく、第1音声情報そのもの(例えば、音声データ等)を含んでもよい。
The
次に、情報処理装置2は、第1発話情報を含む第1応答決定指示をLLMサーバ装置4に対して送信する(S2)。第1応答決定指示は、対象者の発話の少なくとも一部に対する応答に関する第1応答情報を決定するための指示を含み得る。LLMサーバ装置4は、第1応答決定指示に基づいて第1応答情報を生成し、当該第1応答情報を情報処理装置2に対して送信する(S3)。
Next, the
なお、情報処理装置2は、ステップS3の直後の時点では第1応答情報を対象者に対して出力しない。情報処理装置2は、第1応答情報を暫定的な応答として保持したまま、端末装置3から追加の音声情報の入力を待ち受ける。そして、情報処理装置2は、対象者の発話に関する所定の条件が満たされない場合(一例では、追加の音声情報の入力がなく、発話が継続されないと判定される場合)には、第1応答情報を出力する(図示しない)。これに対して、対象者の発話に関する所定の条件が満たされる場合(一例では、追加の音声情報の入力があり、発話が継続されると判定される場合)に関して、以下で説明する。
The
端末装置3は、音声入力装置を介して対象者の発話を受け付けることによって第2音声情報をさらに生成し、情報処理装置2に対して送信する(S4)。情報処理装置2は、第2音声情報に基づいて第2発話情報を取得する。第2発話情報は、第1発話情報と同様に、第2音声情報を文字起こししたテキストデータを含んでよく、第2音声情報そのもの(例えば、音声データ等)を含んでもよい。
The
次に、情報処理装置2は、第2発話情報と、既に取得済みの第1発話情報、及び/又は暫定的な応答として保持している第1応答情報とを含む第2応答決定指示をLLMサーバ装置4に対して送信する(S5)。第2応答決定指示は、対象者の発話の少なくとも一部に対する応答に関する第2応答情報を決定するための指示を含み得る。LLMサーバ装置4は、第2応答決定指示に基づいて第2応答情報を生成し、当該第2応答情報を情報処理装置2に対して送信する(S6)。第2応答情報は、対象者による追加的な入力に相当する第2発話情報に基づいて、暫定的な応答の候補である第1応答情報を更新した情報であるということもできる。
Next, the
次に、情報処理装置2は、第2応答情報を出力する(S7)。情報処理装置2は、対象者による追加の発話がないと判定したうえで第2応答情報を出力してもよい。
Next, the
システム1によれば、対象者からすると応答のレイテンシとして感じられる時間間隔を抑制することができる。システム1は、対象者の発話に関する第1発話情報に基づいて暫定的な応答である第1応答情報を取得し(S3参照)、その後、発話に関する所定の条件が満たされない場合は当該第1応答情報を出力し、当該所定の条件が満たされる場合には第1発話情報及び/又は第1応答情報に基づいて第2応答情報を取得する(S6参照)。このような構成によれば、一例では、ユーザの発話が継続している間にも応答情報が継続的に更新され、発話が終了すると速やかに直近の更新後の応答情報が出力される。すなわち、例えば対象者による発話が終了した後に応答の生成を開始するような従来技術と比較して、対象者が感じるレイレンシを抑制することができる。その結果、AIエージェントによる通話が効率化される。
According to the
なお、本実施形態において、説明の便宜上、例えば「更新」及び「暫定的」等の用語を用いる場合があるが、これらの用語はコンピュータによる実際の処理を限定するものではない。 In this embodiment, for the sake of convenience, terms such as "update" and "provisional" may be used, but these terms do not limit the actual processing performed by a computer.
また、以下では、第1音声情報及び第2音声情報を特に区別しない場合、又はこれらをまとめて称する場合、これらを「音声情報」と称する。同様に、第1発話情報及び第2発話情報を特に区別しない場合、又はこれらをまとめて称する場合、これらを「発話情報」と称する。同様に、第1応答情報及び第2応答情報を特に区別しない場合、又はこれらをまとめて称する場合、これらを「応答情報」と称する。同様に、第1応答決定指示及び第2応答決定指示を特に区別しない場合、又はこれらをまとめて称する場合、これらを「応答決定指示」と称する。 Furthermore, in the following, when there is no particular distinction between the first voice information and the second voice information, or when they are referred to collectively, they are referred to as "voice information". Similarly, when there is no particular distinction between the first utterance information and the second utterance information, or when they are referred to collectively, they are referred to as "utterance information". Similarly, when there is no particular distinction between the first response information and the second response information, or when they are referred to collectively, they are referred to as "response information". Similarly, when there is no particular distinction between the first response determination instruction and the second response determination instruction, or when they are referred to collectively, they are referred to as "response determination instructions".
以下、図2~9を参照して、システム1の詳細な態様について例示的に説明する。
Detailed aspects of
2 機能構成
図2を参照して、本実施形態のシステム1の機能構成について説明する。システム1は、情報処理装置2、端末装置3、LLMサーバ装置4及び通信ネットワーク5を含む。情報処理装置2、端末装置3及びLLMサーバ装置4は、通信ネットワーク5を介して通信可能に構成されている。
2 Functional Configuration The functional configuration of the
2.1 情報処理装置2
情報処理装置2は、AIエージェントによる通話を効率化することに関する処理の少なくとも一部を実行する。一実施形態において、情報処理装置2は、端末装置3をクライアント装置とした場合におけるサーバ装置である。一実施形態において、情報処理装置2は、クラウドサーバ装置である。なお、情報処理装置2は、例えば、仮想的又は物理的な一以上のwebサーバ装置と、仮想的又は物理的な一以上のデータベースサーバ装置とを含む装置であってよい。
2.1
The
情報処理装置2は、制御部10、記憶部12、ネットワークインタフェース部14及びバス16を備える。制御部10、記憶部12及びネットワークインタフェース部14は、バス16を介して電気的に接続されている。
The
2.1.1 制御部10
制御部10は、後述する記憶部12が記憶する各種プログラムを実行することにより、取得部100、決定部102、判定部104及び出力部106として機能し得る。
2.1.1
The
2.1.1.1 取得部100
取得部100は、対象者の発話に関する発話情報を取得する。発話情報は、第1の発話に関する第1発話情報と、当該第1の発話より後の第2の発話に関する第2発話情報とを含む。
2.1.1.1
The acquiring
一実施形態において、発話情報は、情報処理装置2が端末装置3から受信した音声情報に基づいて対象者の発話を文字起こししたテキストデータを含んでよい。すなわち、第1発話情報は、対象者の発話のうち、第1の発話の部分を文字起こししたテキストデータを含んでよく、第2発話情報は、対象者の発話のうち、第1の発話より後の第2の発話の部分を文字起こししたテキストデータを含んでよい。取得部100は、当業者の知識に基づいて選択される音声認識プログラムによって、音声情報を文字起こしし得る。
In one embodiment, the speech information may include text data transcribed from the target person's speech based on the audio information received by the
一例では、対象者の発話が「えーと、今日の夜7時に2名で予約したいんですけど…あ、名前は○○です。」の場合、音声情報はこの発話に対応する音声データを含むことができ、第1発話情報は、「えーと、今日の夜7時に2名で予約したいんですけど」というテキストデータを含むことができ、第2発話情報は「あ、名前は○○です。」というテキストデータを含むことができる。 In one example, if the subject's utterance is "Um, I'd like to make a reservation for two people at 7pm tonight...oh, my name is ____," the voice information can include voice data corresponding to this utterance, the first utterance information can include text data saying "Um, I'd like to make a reservation for two people at 7pm tonight," and the second utterance information can include text data saying "oh, my name is ____."
なお、対象者の発話のうち、どこまでを第1の発話とし、どこからを第2の発話とするかは、後述する判定部104の判定結果に基づいて決定され得る。判定部104は、対象者の発話に区切りが生じたか否かを判定する。取得部100は、対象者の発話のうち、区切りが生じたと判定された時点までの少なくとも一部の発話を第1の発話とし、区切りが生じたと判定された時点以降の少なくとも一部の発話を第2の発話として、第1発話情報及び第2発話情報を取得し得る。上記では、「えーと、今日の夜7時に2名で予約したいんですけど」(第1発話情報に対応)と「あ、名前は○○です。」(第2発話情報に対応)との間に区切りが生じたと判定された場合について例示した。
It should be noted that the extent of the target person's speech to be the first utterance and the extent to be the second utterance may be determined based on the determination result of the
一実施形態において、発話情報は、音声情報そのものを含んでよい。すなわち、第1発話情報は、対象者の発話のうち、第1の発話の部分の音声情報そのものを含んでよく、第2発話情報は、対象者の発話のうち、第1の発話より後の第2の発話の部分の音声情報そのものを含んでよい。 In one embodiment, the speech information may include the audio information itself. That is, the first speech information may include the audio information itself of the first utterance portion of the target person's speech, and the second speech information may include the audio information itself of the second utterance portion of the target person's speech that follows the first utterance.
2.1.1.2 決定部102
決定部102は、第1応答決定部102a、第2応答決定部102b及び相槌決定部102cを含む。
2.1.1.2
The
2.1.1.2.1 第1応答決定部102a
第1応答決定部102aは、第1発話情報を含む第1応答決定指示をLLMに入力することによって、対象者の発話の少なくとも一部に対する応答に関する第1応答情報を決定する。
2.1.1.2.1 First
The first
一実施形態において、第1応答決定指示をLLMに入力することは、第1応答決定指示を含むHTTPリクエストをLLMサーバ装置4に対して送信することを含み得る。第1応答情報を決定することは、当該HTTPリクエストに対するHTTPレスポンスを取得することを含み得る。
In one embodiment, inputting the first response determination instruction into the LLM may include transmitting an HTTP request including the first response determination instruction to the
一実施形態において、第1応答決定指示は、第1発話情報の他にも、例えばシステムプロンプト、及び対象者とAIエージェントとの会話履歴(すなわち、第1応答情報を決定するより前の対象者の発話に関する情報、及びそれに対する情報処理装置2による応答に関する情報)等を含み得る。 In one embodiment, the first response determination instruction may include, in addition to the first utterance information, for example, a system prompt and a conversation history between the subject and the AI agent (i.e., information regarding the subject's utterance prior to determining the first response information, and information regarding the response thereto by the information processing device 2), etc.
一実施形態において、第1応答決定部102aは、対象者の発話に第1の区切りが生じたと判定部104(後述)によって判定された場合に第1応答決定指示をLLMに入力する。一例では、対象者の発話が「えーと、今日の夜7時に2名で予約したいんですけど…あ、名前は○○です。」の場合、判定部104は、「今日の夜7時に2名で予約したいんですけど」と「あ、名前は○○です」の間で第1の区切りが生じたと判定し得る。第1応答決定部102aは、第1の区切りが生じたと判定された時点で第1応答決定指示をLLMサーバ装置4に送信し、第1応答情報を決定し得る。
In one embodiment, the first
一実施形態において、第1応答決定部102aは、第1応答情報を決定する際に、当該第1応答情報を音声により出力するための情報をさらに決定してよい。応答情報を音声により出力するための情報は、当業者に任意に選択できる音声生成プログラムに基づいて生成され得る。なお、「応答情報を決定する際」は、応答情報を決定する直前であってよく、応答情報を決定する処理と並行であってよく、応答情報を決定する処理と一体的及び/又は連続的に行われることであってよく、応答情報を決定する処理の直後であってもよい。
In one embodiment, the first
一実施形態において、記憶部12は一以上のテキストのそれぞれを音声により出力するための情報を記憶し、第1応答情報が当該一以上のテキストの少なくとも1つと整合する場合には、当該第1応答情報を音声により出力するための情報を決定することは、当該整合するテキストを音声により出力するための情報を記憶部12から取得することを含み、第1応答情報が一以上のテキストのいずれとも整合しない場合には、当該第1応答情報を音声により出力するための情報を決定することは、所定の音声生成プログラムに基づいて当該第1応答情報を音声により出力するための情報を生成することを含む。すなわち、応答情報が典型的には”よくある"単語及び/又はフレーズを含む場合には、第1応答決定部102aは、予め用意された当該単語及び/又はフレーズの音声を決定し得る。一例では、記憶部12が「ご予約承りました」というテキストを音声により出力するための情報を記憶する場合において、第1応答情報に「ご予約承りました」というテキストが含まれる場合には、第1応答情報のその部分を音声により出力するための情報は、記憶部12から取得される。他の一例では、記憶部12が上記同様「ご予約承りました」というテキストを音声により出力するための情報を記憶する場合において、第1応答情報に「ご予約承りました」というテキストが含まれない場合(すなわち、記憶部12からそれに対応する音声を出力するための情報を取得することができない場合)には、第1応答決定部102aは、所定の音声生成プログラムにより「ご予約承りました」を音声により出力するための情報を生成する。この構成によれば、第1応答情報に含まれるテキストの一部が、予め用意された音声により出力され得るため、対象者が感じるレイテンシが抑制され得る。
In one embodiment, the
2.1.1.2.2 第2応答決定部102b
第2応答決定部102bは、対象者の発話に関する所定の条件が満たされる場合(一例では、対象者の発話が継続されると判定される場合)に、第1応答情報を対象者に出力する前に、第1発話情報及び/又は第1応答情報と、第2発話情報とを含む第2応答決定指示をLLMに入力することによって、発話の少なくとも一部に対する他の応答に関する第2応答情報を決定する。
2.1.1.2.2 Second
When a predetermined condition regarding the target's speech is satisfied (in one example, when it is determined that the target's speech will continue), the second
一実施形態において、第2応答決定指示をLLMに入力することは、第1応答決定指示をLLMに入力することと同様に、第2応答決定指示を含むHTTPリクエストをLLMサーバ装置4に対して送信することを含み得る。第2応答情報を決定することは、当該HTTPリクエストに対するHTTPレスポンスを取得することを含み得る。
In one embodiment, inputting the second response determination instruction to the LLM may include transmitting an HTTP request including the second response determination instruction to the
一実施形態において、第2応答決定指示は、第1応答決定指示と同様に、第1応答情報及び第2発話情報の他にも、例えばシステムプロンプト、及び対象者とAIエージェントとの会話履歴(すなわち、第2応答情報を決定するより前の対象者の発話に関する情報、及びそれに対する情報処理装置2による応答に関する情報)等を含み得る。 In one embodiment, the second response determination instruction, like the first response determination instruction, may include, in addition to the first response information and the second utterance information, for example, a system prompt and a conversation history between the subject and the AI agent (i.e., information about the subject's utterance prior to determining the second response information, and information about the response thereto by the information processing device 2), etc.
図1を参照して例示したように、第1応答情報は暫定的な応答であり得る。第2応答決定部102bは、対象者の発話に関する所定の条件が満たされる場合には、第1応答情報を対象者に出力する前に(一例ではそのような暫定的な応答を出力することなく)、第2応答情報を決定し得る。一実施形態において、第1応答情報を対象者に出力する前の期間は、第1応答情報が端末装置3において音声等により出力される前の期間であり得る。
As illustrated with reference to FIG. 1, the first response information may be a tentative response. If a predetermined condition regarding the target person's speech is satisfied, the second
一実施形態において、第2応答決定部102bは、第2応答情報を決定する際に、当該第2応答情報を音声により出力するための情報をさらに決定してよい。
In one embodiment, when determining the second response information, the second
一実施形態において、記憶部12は一以上のテキストのそれぞれを音声により出力するための情報を記憶し、第2応答情報が当該一以上のテキストの少なくとも1つと整合する場合には、当該第2応答情報を音声により出力するための情報を決定することは、当該整合するテキストを音声により出力するための情報を記憶部12から取得することを含み、第2応答情報が一以上のテキストのいずれとも整合しない場合には、当該第2応答情報を音声により出力するための情報を決定することは、所定の音声生成プログラムに基づいて当該第2応答情報を音声により出力するための情報を生成することを含む。
In one embodiment, the
一実施形態において、第2応答決定部102bは、発話に第2の区切りが生じたと判定部104によって判定された場合に第2応答決定指示をLLMに入力する。一例では、対象者の発話が「えーと、今日の夜7時に2名で予約したいんですけど…あ、名前は○○です。」の場合、判定部104は、上述したとおり「今日の夜7時に2名で予約したいんですけど」と「あ、名前は○○です」の間で第1の区切りが生じたと判定し、さらに「あ、名前は○○です。」の後に第2の区切りが生じたと判定し得る。第2応答決定部102bは、第2の区切りが生じたと判定された時点で第2応答決定指示をLLMサーバ装置4に送信し、第2応答情報を決定し得る。なお、第1発話情報を取得した後、対象者の発話に関する所定の条件が満たされない場合(一例では、対象者の発話が継続されないと判定される場合)には、第1応答情報が出力され得るため、第2応答決定部102bは第2応答情報を決定しなくてよい。
In one embodiment, the second
2.1.1.2.3 相槌決定部102c
相槌決定部102cは、第1応答情報を決定する際に、第1発話情報に対応する相槌に関する相槌情報を決定する。なお、「第1応答情報を決定する際」は、第1応答情報を決定する前であってよく、第1応答情報を決定する処理の実行中であってよく、第1応答情報を決定した後であってもよい。
2.1.1.2.3
The
一実施形態において、相槌決定部102cは、第1発話情報が対象者の肯定的な発話に関する情報を含むか、否定的な発話に関する情報を含むかに基づいて相槌情報を決定し得る。一例では、第1発話情報が「はい、可能です」というような肯定的な発話に関する情報を含む場合、相槌決定部102cは、「ありがとうございます」というテキストデータを含む相槌情報を決定し得る。他の一例では、第1発話情報が「申し訳ございません」というような否定的な発話に関する情報を含む場合、相槌決定部102cは、「かしこまりました」というテキストデータを含む相槌情報を決定し得る。この場合において、相槌決定部102cは、例えば、肯定的な発話に含まれる可能性のある単語のリスト、及び否定的な発話に含まれる単語のリスト等を参照し、いずれかのリストに対応する相槌情報を決定してよい。
In one embodiment, the
一実施形態において、相槌決定部102cは、第1発話情報に含まれる質問の形式に基づいて相槌情報を決定し得る。一例では、第1発話情報が「~してもいいですか?」というようなYES/NOで回答できる質問や、「AとB、どちらにしたらいいですか?」というようなクローズドな形式で回答できる質問を含む場合には、相槌決定部102cは「ご確認ありがとうございます」というテキストデータを含む相槌情報を決定し得る。他の一例では、第1発話情報が「もう一度言ってください」というようなオープンな形式で回答できる質問を含む場合には、相槌決定部102cは「かしこまりました」というテキストデータを含む相槌情報を決定し得る。この場合において、相槌決定部102cは、当業者の知識に基づいて選択される自然言語処理アルゴリズムに基づいて、第1発話情報に含まれる質問の形式を判定し、当該判定結果に基づいて相槌情報を決定してよい。
In one embodiment, the
一実施形態において、相槌決定部102cは、相槌情報を決定する際に、当該相槌情報を音声により出力するための情報をさらに決定してよい。
In one embodiment, when determining the backchannel information, the
一実施形態において、記憶部12は一以上のテキストのそれぞれを音声により出力するための情報を記憶し、相槌情報が当該一以上のテキストの少なくとも1つと整合する場合には、当該相槌情報を音声により出力するための情報を決定することは、当該整合するテキストを音声により出力するための情報を記憶部12から取得することを含み、相槌情報が一以上のテキストのいずれとも整合しない場合には、当該相槌情報を音声により出力するための情報を決定することは、所定の音声生成プログラムに基づいて当該相槌情報を音声により出力するための情報を生成することを含む。
In one embodiment, the
一実施形態において、相槌決定部102cは、第1発話情報、及び/又は当該第1発話情報に対応する発話の音声に基づいて、対象者の発話における感情を推定し、当該推定された感情にさらに基づいて相槌情報を決定する。一例として、第1発話情報に対応する発話が「これはなぜできないのですか?」という音声である場合を想定する。このとき、当該音声に基づいて対象者が怒っていることが推定される場合には、相槌決定部102cは、「申し訳ございません」という相槌を決定し得る。これに対して、当該音声に基づいて対象者が怒っていないと推定される場合には、相槌決定部102cは、「ご質問ありがとうございます」という相槌を決定し得る。この構成によれば、対象者にとってより自然な相槌が出力され得る。なお、第1発話情報、及び/又は当該第1発話情報に対応する発話の音声に基づく対象者の発話における感情の推定は、当業者が任意に選択し得る感情推定アルゴリズムに基づいて実行され得る。
In one embodiment, the
一実施形態において、相槌決定部102cは、第1発話情報を含む相槌決定指示をLLMに入力することによって相槌情報を決定する。
In one embodiment, the
一実施形態において、相槌決定指示をLLMに入力することは、応答決定指示をLLMに入力することと同様に、相槌決定指示を含むHTTPリクエストをLLMサーバ装置4に対して送信することを含み得る。相槌情報を決定することは、当該HTTPリクエストに対するHTTPレスポンスを取得することを含み得る。
In one embodiment, inputting a backchannel determination instruction to the LLM may include transmitting an HTTP request including the backchannel determination instruction to the
一実施形態において、相槌決定指示は、応答決定指示と同様に、第1発話情報の他にも、例えばシステムプロンプト等を含み得る。 In one embodiment, the backchannel decision instruction, like the response decision instruction, may include, in addition to the first speech information, for example, a system prompt.
一実施形態において、相槌決定部102cは、第2応答情報を決定する際に、第2発話情報に対応する他の相槌に関する他の相槌情報を決定する。この際、相槌決定部102cは、第2発話情報を含む相槌決定指示をLLMに入力することによって当該他の相槌情報を決定してよい。
In one embodiment, when determining the second response information, the
2.1.1.3 判定部104
判定部104は、発話に第1の区切りが生じた否かを判定する。第1発話情報は、対象者の発話のうち、第1の区切りまでの部分に関する情報を含む。
2.1.1.3
The
一実施形態において、判定部104は、発話の第1の区切りの後に第2の区切りが生じたか否かをさらに判定する。第2発話情報は、対象者の発話のうち、第2の区切りまでの部分に関する情報を含む。
In one embodiment, the
一実施形態において、判定部104は、対象者の発話の音声上の連続性に基づいて、発話に区切りが生じたか否かを判定する。一例では、判定部104は、音声情報に含まれる複数の音声チャンク(例えば、音声情報を0.1秒毎に分割したデータ)のそれぞれに基づいて対象者が発声中であるか否かを逐次的に判定し、連続した所定数の音声チャンクにおいて対象者が発声中ではないと判定された場合に、そこに区切りが生じたと判定し得る。
In one embodiment, the
一実施形態において、判定部104は、対象者の発話の意味上の連続性に基づいて、発話に区切りが生じたか否かを判定する。一例では、発話情報が音声情報を文字起こししたテキストデータを含む場合において、判定部104は、当該テキストデータを、第1のテーマに関する部分と、第2のテーマに関する部分に分割し、これらの間に区切りが生じたと判定し得る。例えば、発話情報が「明日の夜7時に、4人で予約したいんですけど、コースに飲み放題はつけられますか?」というテキストデータを含む場合において、判定部104は、「明日の夜7時に、4人で予約したいんですけど」という第1のテーマ(この例では、予約の可否の質問)に関する部分と、「コースに飲み放題はつけられますか?」という第2のテーマ(この例では、コースの内容の質問)に関する部分とに分割し、その間に区切りが生じたと判定し得る。
In one embodiment, the
一実施形態において、判定部104は、発話の第1の区切り及び第2の区切りの少なくとも一方の後に、応答の出力に関する所定の時間が経過したか否かをさらに判定する。一実施形態において、所定の時間は、相槌情報に基づいて決定される。一例では、所定の時間は、相槌情報を音声により出力する場合における再生時間に基づいて決定される。例えば、相槌情報が「かしこまりました」というテキストデータを含み、これを音声により出力する場合には0.8秒かかるとした場合には、所定の時間は、0.8秒(あるいは、これに対してバッファとして0.1秒程度を加えた秒数)であり得る。
In one embodiment, the
2.1.1.4 出力部106
出力部106は、対象者の発話に関する所定の条件が満たされない場合(例えば、発話が継続する場合)には第1応答情報を出力し、当該所定の条件が満たされる場合(例えば、発話が終了する場合)には第1応答情報及び第2応答情報の少なくとも一方を出力する。応答情報を出力することは、応答情報を出力するための情報を端末装置3に対して送信することを含む。
2.1.1.4
The
一実施形態において、出力部106は、対象者の端末装置3が応答情報を音声により出力するように制御する。この際、出力部106は、応答情報に対応する音声を出力するための情報を端末装置3に対して送信し得る。応答情報に対応する音声を出力するための情報は、当業者の知識に基づいて選択される音声生成プログラムに基づいて生成され得る。
In one embodiment, the
一実施形態において、出力部106は、相槌情報をさらに出力する。一実施形態において、出力部106は、対象者の端末装置3が相槌情報を音声により出力するように制御する。この際、出力部106は、相槌情報に対応する音声を出力するための情報を端末装置3に対して送信し得る。相槌情報に対応する音声を出力するための情報は、当業者の知識に基づいて選択される音声生成プログラムに基づいて生成され得る。
In one embodiment, the
一実施形態において、出力部106は、相槌情報を出力した後に第1応答情報及び第2応答情報の少なくとも一方を出力する。相槌情報を出力した後に第1応答情報及び第2応答情報の少なくとも一方を出力することは、相槌情報が端末装置3において音声により出力された後で当該応答情報が端末装置3において音声により出力されるように端末装置3を制御することを含む。
In one embodiment, the
一実施形態において、出力部106は、第2の区切りの後に所定の時間が経過したと判定部104によって判定された場合に第2応答情報を出力する。
In one embodiment, the
2.1.2 記憶部12
記憶部12は、情報処理装置2が動作するための各種情報を記憶する。一実施形態において、記憶部12は、制御部10が実行するプログラムを記憶する。
2.1.2
The
2.1.3 ネットワークインタフェース部14
ネットワークインタフェース部14は、通信ネットワーク5を介した他の装置との通信を実現する。
2.1.3
The
2.2 端末装置
端末装置3は、対象者が使用する通信用装置である。端末装置3は、例えば、スマートフォン、パーソナルコンピュータ、タブレット端末及びウェアラブル端末等である。端末装置3は、入力インタフェース、出力インタフェース及び通信インタフェースを備える。
2.2 Terminal Device The
入力インタフェースは、端末装置3が対象者からの入力を受け付けるためのインタフェースである。入力インタフェースは、タッチパネル、マイク、カメラ、キーボード及びマウス等であってよい。
The input interface is an interface through which the
出力インタフェースは、画像及び音声等により情報を対象者に対して伝達するためのインタフェースである。出力インタフェースは、ディスプレイ(タッチパネルを兼ねる場合がある)及びスピーカー等である。 The output interface is an interface for transmitting information to the target person through images, audio, etc. Output interfaces include a display (which may also serve as a touch panel) and a speaker, etc.
通信インタフェースは、通信ネットワーク5を介した他の装置との通信を実現するためのインタフェースである。通信インタフェースは、無線通信インタフェースであってよく、有線通信インタフェースであってもよい。
The communication interface is an interface for realizing communication with other devices via the
端末装置3は、例えばwebブラウザを介して情報処理装置2が提供するサービスにアクセスすることができてよく、専用のソフトウェアをインストールすることによって当該サービスにアクセスすることができてもよい。
The
2.3 LLMサーバ装置4
LLMサーバ装置4は、LLMによるサービスを提供する装置である。LLMは、数億以上のパラメータを有し、数百GB以上の自然言語に関するデータを学習した深層学習モデルであってよい。LLMは、例えば、gpt-4о等である。一例では、LLMサーバ装置4は、API(Application Programming Interface)を介してLLMを用いるサービスを提供する。
2.3
The
一実施形態において、LLMサーバ装置4は、指示(プロンプトということもできる)の入力を他の装置から受け付け、当該指示に沿った応答を当該他の装置に返す。一例では、指示及び応答は、いずれもテキストである。
In one embodiment, the
2.4 通信ネットワーク5
通信ネットワーク5は、システム1に含まれる各装置間の通信を実現する。通信ネットワーク5は、例えば、TCP/IPプロトコルに基づいて各装置間の通信を実現する。
2.4
The
3 動作
図3~8を参照して、システム1の動作の一例について説明する。
3. Operation An example of the operation of the
3.1 第1実施形態
図3~5を参照して、第1実施形態に係るシステム1の動作について説明する。第1実施形態では、システム1の基本的な態様について例示的に説明する。
3 to 5, the operation of the
3.1.1 フローチャート
図3は、第1実施形態に係る情報処理装置2の動作について説明するためのフローチャートである。図3のフローチャートにはステップS100~S112が記載されているが、情報処理装置2は、これらの処理と並行して、音声チャンクの取得、当該音声チャンクに基づく発声中か否かの判定、及び音声情報の文字起こしを継続的・逐次的に実行する。この処理は、取得部100が対象者の発話に関する発話情報を取得することの一例である。
3.1.1 Flowchart Fig. 3 is a flowchart for explaining the operation of the
情報処理装置2は、その時点で対象者による発話に区切りが生じているか否かを判定する(S100)。一例では、情報処理装置2は、発声なしと判定された音声チャンクがその時点において所定数連続しているか否かに基づいてこの判定を実行する。この処理は、判定部104が、対象者の発話に第1の区切りが生じた否かを判定することの一例である。
The
発話に区切りが生じていない場合(S100 NO)には、情報処理装置2は発話に区切りが生じるまで待機する(S102)。なお、上述したとおり、待機中にも情報処理装置2は音声チャンクの取得、当該音声チャンクに基づく発声中か否かの判定、及び音声情報の文字起こしを継続的・逐次的に実行する。
If there is no break in the speech (S100 NO), the
これに対して、発話に区切りが生じている場合(S100 YES)には、情報処理装置2は、応答決定処理を実行する。この時点での応答決定処理は、以下の(1)~(3)の処理を含み得る。
(1)第1発話情報(一例では、その時点までに得られた文字起こしのテキストデータ)を含む第1応答決定指示をLLMサーバ装置4に送信すること。
(2)LLMサーバ装置4から第1応答情報を取得すること。
(3)第1応答情報に対応する音声を出力するための情報を生成すること。
On the other hand, if a break has occurred in the speech (S100 YES), the
(1) Sending a first response determination instruction to the
(2) Obtaining first response information from the
(3) Generating information for outputting a voice corresponding to the first response information.
この時点までに得られた文字起こしのテキストデータは、対象者の発話のうち、第1の区切りまでの部分に関する情報の一例である。 The transcribed text data obtained up to this point is an example of information about the portion of the subject's speech up to the first segment.
また、この時点での応答決定処理は、第1応答決定部102aが、第1発話情報を含む第1応答決定指示をLLMに入力することによって、対象者の発話の少なくとも一部に対する応答に関する第1応答情報を決定することの一例である。
The response determination process at this point is also an example of the first
また、この時点での応答決定処理は、第1応答決定部102aが、対象者の発話に第1の区切りが生じたと判定部104によって判定された場合に第1応答決定指示をLLMに入力することの一例である。
The response determination process at this point is an example of the first
次に、情報処理装置2は、発話が終了したか否かを判定する(S110)。一例では、情報処理装置2は、その時点まで発声なしと判定された音声チャンクが、ステップS100の時点からさらに所定数連続しているか否かに基づいてこの判定を実行する。
Next, the
発話が終了したと判定される場合(S110 YES)、後述するように、情報処理装置2は、第1応答情報を出力し得る。これに対して、発話が終了したと判定されない場合、すなわち、対象者による発話が継続している場合(S110 NO)には、情報処理装置2は次に発話に区切りが生じるまで待機する(S102)。そして、情報処理装置2は、以降のループで発話に区切りが生じた際に(S100 YES)、応答決定処理を再度実行する。この時点での応答決定処理は、以下の(1)~(3)の処理を含み得る。
(1)第1発話情報及び/又は第1応答情報と、第2発話情報(一例では、その時点までに得られた文字起こしのテキストデータ)を含む第2応答決定指示をLLMサーバ装置4に送信すること。
(2)LLMサーバ装置4から第2応答情報を取得すること。
(3)第2応答情報に対応する音声を出力するための情報を生成すること。
When it is determined that the speech has ended (S110 YES), the
(1) Sending a second response determination instruction to the
(2) Obtaining second response information from the
(3) Generating information for outputting a voice corresponding to the second response information.
2回目のステップS100は、判定部104が、対象者の発話の第1の区切りの後に第2の区切りが生じたか否かをさらに判定することの一例である。
The second step S100 is an example of the
この時点までに得られた文字起こしのテキストデータは、対象者の発話のうち、第2の区切りまでの部分に関する情報の一例である。 The transcribed text data obtained up to this point is an example of information about the subject's speech up to the second segment.
また、この応答決定処理は、第2応答決定部102bが、対象者の発話に関する所定の条件が満たされる場合に、第1応答情報を対象者に出力する前に、第1発話情報及び/又は第1応答情報と、第2発話情報とを含む第2応答決定指示をLLMに入力することによって、対象者の発話の少なくとも一部に対する他の応答に関する第2応答情報を決定することの一例である。
This response determination process is also an example of the second
また、この応答決定処理は、第2応答決定部102bが、対象者の発話に第2の区切りが生じたと判定部104によって判定された場合に第2応答決定指示をLLMに入力することの一例である。
This response determination process is also an example of the second
情報処理装置2は、ステップS100~ステップS110のループを、対象者の発話が継続している間繰り返し実行する。そして、ステップS104では、応答決定処理によりその都度応答情報が更新される。
The
2回目のステップS100の直後のステップS110は、判定部104が、対象者の発話の第2の区切りの後に、応答の出力に関する所定の時間が経過したか否かをさらに判定することの一例である。
Step S110 immediately following step S100 for the second time is an example in which the
その後、発話が終了したと判定される場合(S110 YES)には、情報処理装置2は、直近のステップS104の応答決定処理において決定した応答情報に対応する音声を出力するための情報を端末装置3に送信する(S112)。「直近のステップS104の応答決定処理において決定した応答情報」とは、例えば、ステップS110において一度もNOと判定されなかった場合には初回の応答決定処理において決定された応答情報であってよく、ステップS110において一度だけNOと判定された場合には2度目の応答決定処理において決定された応答情報であってよい。
After that, when it is determined that the speech has ended (S110 YES), the
応答情報に対応する音声を出力するための情報を端末装置3に送信することは、出力部106が第1応答情報及び第2応答情報の少なくとも一方を出力することの一例である。
Transmitting information to the
また、発話が終了したと判定される場合に応答情報を出力することは、出力部106が第2の区切りの後に所定の時間が経過したと判定部104によって判定された場合に第2応答情報を出力することの一例である。
In addition, outputting response information when it is determined that the speech has ended is an example of the
3.1.2 テーブル(第1応答情報を出力する場合)
図4は、第1実施形態に係る情報処理装置2の動作を異なる観点から説明するための図である。以下の説明において、「Th1」は、発話に区切りが生じたと判定されるための時間の長さに対応する値であり、「Th2」は、発話が終了したと判定されるための時間の長さに対応する値であるとする。
3.1.2 Table (when outputting first response information)
4 is a diagram for explaining the operation of the
情報処理装置2は、時点t1~tN+Th1+Th2+1のそれぞれにおける音声チャンク(音声チャンクv1~vN+Th1+Th2+1)を逐次的に取得しながら、それぞれの音声チャンクについて発声判定を実行する。
The
情報処理装置2は、N個の音声チャンクv1~vNのそれぞれに基づいて、時点t1~tNにおいて対象者は発声中であると判定し、文字起こしを実行するものとする。音声チャンクv1~vNを文字起こししたテキストデータは、第1の発話に関する第1発話情報の一例である。この処理は、図3のステップS100 NO~S102で説明した処理に対応する。
The
次に、情報処理装置2は、Th1個の音声チャンクvN+1~vN+Th1に基づいて、時点tN+1~tN+Th1において対象者は発声していないと判定する。そして、情報処理装置2は、この時間区間において対象者の発声がなかったことに基づいて、発話に区切りが生じていると判定、応答決定処理を実行するものとする。これにより、情報処理装置2は、第1応答情報を決定する。これらの処理は、図3のステップS100 YES~S104で説明した処理に対応する。応答決定処理は、Th2個の時間区間である時点tN+Th1+1から時点tN+Th1+Th2まで継続するものとする。
Next, the
次に、情報処理装置2は、Th2個の時間区間である時点tN+Th1+1から時点tN+Th1+Th2まで対象者の発声がなかったことに基づいて、発話が終了したと判定し、第1応答情報を出力する。これらの処理は、図3のステップS110 YES~S112で説明した処理に対応する。
Next, the
3.1.3 テーブル(第2応答情報を出力する場合)
図5は、第1実施形態に係る情報処理装置2の動作を異なる観点からさらに説明するための図である。情報処理装置2は、時点t1~tM+Th1+Th2+1のそれぞれにおける音声チャンク(音声チャンクv1~vM+Th1+Th2+1)を逐次的に取得しながら、それぞれの音声チャンクについて発声判定を実行する。なお、時点t1~tN+Th1までの動作は図4の例と共通するため、以下では説明を省略する。
3.1.3 Table (when outputting second response information)
5 is a diagram for further explaining the operation of the
図4では、時点tN+Th1+1~tN+Th1+Th2において対象者は発声していないと判定される例について説明した。図5では、時点tN+Th1+1~tN+Th1+Th2の間の時点tN+Th1+k+1において、対象者の発声が検知される例(すなわち、時点tN+Th1+1において情報処理装置2が発話に区切りが生じていると判定した後、時点tN+Th1+Th2で第1応答情報が出力される前に、時点tN+Th1+k+1において対象者が発声を再開したような場合の例)について説明する。 Fig. 4 describes an example in which it is determined that the target person is not speaking at time points tN+ Th1 +1 to tN +Th1+Th2 . Fig. 5 describes an example in which the target person's speech is detected at time point tN+Th1+ k+1 between time points tN+Th1+1 to tN +Th1+Th2 (i.e., an example in which the target person resumes speaking at time point tN+Th1+k+ 1 after the information processing device 2 determines that a break has occurred in the speech at time point tN+Th1 +1 and before the first response information is output at time point tN+Th1+Th2 ).
情報処理装置2は、音声チャンクvN+Th1+k+1~vMに基づいて、時点tN+Th1+k+1~tMにおいて対象者は発声中であると判定し、文字起こしを実行する。音声チャンクvN+Th1+k+1~vMを文字起こししたテキストデータは、第1の発話より後の第2の発話に関する第2発話情報の一例である。この処理は、図3のステップS100 NO~S102で説明した処理に対応する。
The
次に、情報処理装置2は、Th1個の音声チャンクvM+1~vM+Th1に基づいて、時点tM+1~tM+Th1において対象者は発声していないと判定するものとする。そして、情報処理装置2は、この時間区間において対象者の発声がなかったことに基づいて、発話に区切りが生じていると判定し、応答決定処理を実行するものとする。これにより、情報処理装置2は、第2応答情報を決定する。これらの処理は、図3のステップS100 YES~S104で説明した処理に対応する。応答決定処理は、Th2個の時間区間である時点tM+Th1+1から時点tM+Th1+Th2まで継続するものとする。
Next, the
次に、情報処理装置2は、Th2個の時間区間である時点tM+Th1+1から時点tM+Th1+Th2まで対象者の発声がなかったことに基づいて、発話が終了したと判定し、第2応答情報を出力する。これらの処理は、図3のステップS110 YES~S112で説明した処理に対応する。
Next, the
3.2 第2実施形態
図6~8を参照して、第2実施形態に係るシステム1の動作について説明する。第2実施形態では、情報処理装置2が相槌情報を出力する場合のシステム1の態様について例示的に説明する。
6 to 8, the operation of the
3.2.1 フローチャート
図6は、第6実施形態に係る情報処理装置2の動作について説明するためのフローチャートである。図6のフローチャートにはステップS200~S212が記載されているが、情報処理装置2は、これらの処理と並行して、音声チャンクの取得、当該音声チャンクに基づく発声中か否かの判定、及び音声情報の文字起こしを継続的・逐次的に実行する。
6 is a flowchart for explaining the operation of the
なお、図6のステップS200~S204及びステップS210~S212は、それぞれ図3のステップS100~S104及びステップS110~S112に対応してよいため、以下では図6のステップS206~S208に関して説明する。 Note that steps S200 to S204 and steps S210 to S212 in FIG. 6 may correspond to steps S100 to S104 and steps S110 to S112 in FIG. 3, respectively, so the following description will focus on steps S206 to S208 in FIG. 6.
情報処理装置2は、応答決定処理を実行しながら(S204)、相槌決定処理をさらに実行し得る(S206)。相槌決定処理は、以下の(1)~(3)の処理を含み得る。
(1)第1発話情報(一例では、その時点までに得られた文字起こしのテキストデータ)を含む相槌決定指示をLLMサーバ装置4に送信すること。
(2)LLMサーバ装置4から相槌情報を取得すること。
(3)相槌情報に対応する音声を出力するための情報を生成すること。
この相槌決定処理は、相槌決定部102cが、第1応答情報を決定する際に、第1発話情報に対応する相槌に関する相槌情報を決定することの一例である。なお、相槌決定処理は、第1応答情報を決定する際だけに限定されず、ステップS200~ステップS210のループ毎に実行され得る。
While executing the response determination process (S204), the
(1) Transmitting a backchannel decision instruction to the
(2) Acquiring interjection information from the
(3) Generating information for outputting a voice corresponding to the backchannel information.
This backchannel determination process is an example of the
次に、情報処理装置2は、相槌情報を出力する(S208)。すなわち、情報処理装置2は、ステップS200~ステップS210のループ(対象者が発話を継続している間繰り返される処理)を実行しながら、ステップS212で応答情報を出力する前に、相槌情報を出力し得る。これにより、対象者は、AIエージェントとのより自然な会話を体感することができる。なお、ステップS208で相槌情報が出力された後にステップS212で応答情報が出力されることは、出力部106が、相槌情報を出力した後に第2応答情報を出力することの一例である。
Next, the
なお、図6では、ステップS204と、ステップS206~S208は便宜上直列に記載されているが、これらの処理は並列に実行されてもよい。すなわち、情報処理装置2は、応答決定処理を実行しながら相槌決定処理及び相槌情報の出力を実行してよい。この構成によれば、応答決定処理が実行されている間にまずは相槌情報が対象者に出力されるため、対象者が体感するレイテンシをさらに抑制し得る。
In FIG. 6, step S204 and steps S206 to S208 are shown in series for convenience, but these processes may be executed in parallel. That is, the
3.2.2 テーブル(第1応答情報を出力する場合)
図7は、第2実施形態に係る情報処理装置2の動作を異なる観点から説明するための図である。図4では、時点tN+Th1+1~時点tN+Th1+Th2において情報処理装置2は応答決定処理を実行し、その間は情報を出力しない例について説明した。これに対して、図7の例では、情報処理装置2は、時点tN+1~tN+Th1において対象者の発声がなかったことに基づいて、発話に区切りが生じていると判定し、応答決定処理及び相槌決定処理を実行する。これにより、情報処理装置2は、第1応答情報及び相槌情報を決定するとともに、相槌情報を出力する。これらの処理は、図6のステップS200 YES~S208で説明した処理に対応する。
3.2.2 Table (when outputting first response information)
FIG. 7 is a diagram for explaining the operation of the
3.2.3 テーブル(第2応答情報を出力する場合)
図8は、第2実施形態に係る情報処理装置2の動作を異なる観点からさらに説明するための図である。図5は、時点tN+Th1+1~時点tN+Th1+k及び時点tM+Th1+1~時点tM+Th1+Th2のそれぞれにおいて情報処理装置2は応答決定処理を実行し、その間は情報を出力しない例について説明した。
3.2.3 Table (when outputting second response information)
Fig. 8 is a diagram for further explaining the operation of the
これに対して、図8の例では、情報処理装置2は、時点tN+1~tN+Th1において対象者の発声がなかったことに基づいて、発話に区切りが生じていると判定し、応答決定処理及び相槌決定処理を実行する。情報処理装置2は、さらに、時点tN+1~tN+Th1+kにおいて相槌情報を出力する。
8, the
また、情報処理装置2は、時点tM+1~tM+Th1において対象者の発声がなかったことに基づいて、発話に区切りが生じていると判定し、応答決定処理及び相槌決定処理を実行する。情報処理装置2は、さらに、時点tM+1~tM+Th1+Th2において相槌情報を出力する。
Furthermore, the
3.3 具体例
以下では、対象者による発話が「えーと、今日の夜7時に2名で予約したいんですけど…あ、名前は○○です」であると仮定した場合における、第1応答決定指示、第1応答情報、第2応答決定指示及び第2応答情報の具体例について説明する。なお、第1発話情報は「えーと、今日の夜7時に2名で予約したいんですけど」というテキストデータを含み、第2発話情報は「あ、名前は○○です」というテキストデータを含むものとする。
3.3 Specific Examples In the following, specific examples of the first response determination instruction, the first response information, the second response determination instruction, and the second response information will be described assuming that the utterance by the target person is "Um, I'd like to make a reservation for two people at 7pm tonight... Oh, my name is XX." Note that the first utterance information includes text data of "Um, I'd like to make a reservation for two people at 7pm tonight," and the second utterance information includes text data of "Oh, my name is XX."
一例では、第1応答決定指示は、以下の(1)~(3)のテキストデータを含み得る。
(1)システムプロンプト:「あなたは飲食店の予約受付を行う優秀なAIエージェントです。」
(2)会話履歴:「対象者『あ、もしもし?』→AIエージェント『はい、〇〇(店名)でございます。』」
(3)第1発話情報を含む指示:「直近で、対象者から、『えーと、今日の夜7時に2名で予約したいんですけど』という発話がありました。これに対する応答を作成してください。」
In one example, the first response determination instruction may include the following text data (1) to (3).
(1) System prompt: "You are an intelligent AI agent who takes reservations at restaurants."
(2) Conversation history: "Subject: 'Hello?' → AI agent: 'Hello, this is XX (store name)'"
(3) Instructions including first utterance information: "The subject recently said, 'Um, I'd like to make a reservation for two people at 7pm tonight.' Please create a response to this."
LLMサーバ装置4は、この例の第1応答決定指示に対して、例えば「本日の夜7時に2名様でのご予約ですね。」というテキストデータを含む第1応答情報を生成し、情報処理装置2に対して送信し得る。
In response to the first response determination instruction in this example, the
一例では、第2応答決定指示は、以下の(1)~(4)のテキストデータを含み得る。
(1)システムプロンプト:「あなたは飲食店の予約受付を行う優秀なAIエージェントです。」
(2)会話履歴:「対象者『あ、もしもし?』→AIエージェント『はい、〇〇(店名)でございます。』→対象者『えーと、今日の夜7時に2名で予約したいんですけど』」
(3)第1応答情報:「本日の夜7時に2名様でのご予約ですね。」
(4)第2発話情報を含む指示:「対象者から、追加で『あ、名前は○○です』という発話がありました。第1応答情報を踏まえて、応答を作成してください。」
In one example, the second response determination instruction may include the following text data (1) to (4).
(1) System prompt: "You are an intelligent AI agent who takes reservations at restaurants."
(2) Conversation history: "Subject: 'Hello?' → AI agent: 'Hello, this is XX (store name)' → Subject: 'Um, I'd like to make a reservation for two people at 7pm tonight.'"
(3) First response: "Your reservation is for two people at 7 p.m. tonight."
(4) Instructions including second utterance information: "The subject additionally uttered, 'Oh, my name is ____.' Please create a response based on the first response information."
LLMサーバ装置4は、この例の第2応答決定指示に対して、例えば「本日の夜7時に2名様でのご予約ですね。お名前は○○様でお間違いないでしょうか?」というテキストデータを含む第2応答情報を生成し、情報処理装置2に対して送信し得る。なお「第1応答情報を踏まえて、応答を作成」することは、第1応答情報に含まれるテキストデータが第2応答情報においても含まれるようにすることであってよく、第1応答情報に含まれるテキストデータの続きに相当するテキストデータが第2応答情報に含まれるようにすることであってよく、第1応答情報を参照しつつこれに拘束されることなく第2応答情報を決定することでもよい。
In response to the second response determination instruction in this example, the
4 ハードウェア構成
図9を参照して、上述してきたシステム1に含まれる装置をコンピュータ70により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の機能は、複数台の装置に分けて実現することもできる。
9, an example of a hardware configuration in which the devices included in the above-described
図9に示すように、コンピュータ70は、プロセッサ700と、記憶装置702と、入力I/F704と、データI/F706と、通信I/F708、及び表示装置710を含む。
As shown in FIG. 9, the
プロセッサ700は、記憶装置702に記憶されているプログラムを実行することによりコンピュータ70における様々な処理を制御する。例えば、情報処理装置2の制御部10が備える各機能部等は、記憶装置702に記憶されたプログラムを、プロセッサ700が実行することにより実現可能である。
The
記憶装置702は、例えばRAM(Random Access Memory)等の記憶媒体である。RAMは、プロセッサ700によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。
The
記憶装置702は、他にも、例えばハードディスクドライブ(HDD)やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置702は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。当該各種プログラムを格納した記憶媒体は、コンピュータ読み取り可能な非一時的な記憶媒体(Non-transitory computer readable medium)であってもよい。この他、記憶装置702は、各種情報を登録するテーブルと、当該テーブルを管理するDBを記憶することも可能である。このようなプログラムやデータは、必要に応じて記憶装置702にロードされることにより、プロセッサ700から参照される。
The
入力I/F704は、対象者からの入力を受け付けるためのデバイスである。入力I/F704の具体例としては、カメラ、ボタン、マイク、キーボード、マウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力I/F704は、例えばUSB(Universal Serial Bus)等のインタフェースを介してコンピュータ70に接続されてもよい。
The input I/
データI/F706は、コンピュータ70の外部からデータを入力するためのデバイスである。データI/F706の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データI/F706は、コンピュータ70の外部に設けられることも考えられる。その場合、データI/F706は、例えばUSB等のインタフェースを介してコンピュータ70へと接続される。
The data I/
通信I/F708は、コンピュータ70の外部の装置と有線または無線により、通信ネットワーク5を介したデータ通信を行うためのデバイスである。通信I/F708は、コンピュータ70の外部に設けられることも考えられる。その場合、通信I/F708は、例えばUSB等のインタフェースを介してコンピュータ70に接続される。
The communication I/
表示装置710は、各種情報を表示するためのデバイスである。表示装置710の具体例としては、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示装置710は、コンピュータ70の外部に設けられてもよい。その場合、表示装置710は、例えばディスプレイケーブル等を介してコンピュータ70に接続される。また、入力I/F704としてタッチパネルが採用される場合には、表示装置710は、入力I/F704と一体化して構成することが可能である。
The
また、上記実施の形態で記載されたシステム1に含まれる装置が備える構成要素は、記憶装置702に格納されたプログラムがプロセッサ700によって実行されることで、定められた処理が他のハードウェアと協働して実現されるものとする。また、言い換えれば、これらの構成要素は、ソフトウェアまたはファームウェアとしても、それと対応するハードウェアとしても想定され、その双方の概念において、「機能」、「手段」、「部」、「処理回路」、「ユニット」、または「モジュール」等とも記載され、またそれぞれに読み替えることができる。
The components of the device included in the
5 変形例
以上説明した実施形態は、本開示の理解を容易にするためのものであり、本開示を限定して解釈するためのものではない。実施形態が備え得る構成は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
5. Modifications The above-described embodiments are intended to facilitate understanding of the present disclosure, and are not intended to limit and interpret the present disclosure. The configurations that the embodiments may have are not limited to those exemplified, and may be modified as appropriate. In addition, the configurations shown in different embodiments may be partially substituted or combined with each other.
上記実施形態で「第1」及び「第2」の接頭辞をつけて説明した事項は、当業者の知識に基づいて「第1」~「第N」(ただし、Nは自然数)の関係に拡張して理解され得る。 The matters described in the above embodiment with the prefixes "first" and "second" can be understood as extending the relationship between "first" to "Nth" (where N is a natural number) based on the knowledge of those skilled in the art.
一例では、取得部100は、対象者の発話に関する発話情報を取得することであって、発話情報は、第1の発話に関する第1発話情報~第Nの発話に関する第N発話情報を含む、発話情報を取得してよい。
In one example, the
一例では、自然数n=2~Nに関して、第n応答決定部は、発話に関する所定の条件が満たされる場合に、第n-1応答情報を対象者に出力する前に、第1発話情報~第n-1発話情報及び第1応答情報~第n-1応答情報の少なくとも1つと、第n発話情報とを含む第n応答決定指示を大規模言語モデルに入力することによって、発話の少なくとも一部に対する他の応答に関する第n応答情報を決定してよい。 In one example, for natural numbers n = 2 to N, when a predetermined condition related to the utterance is satisfied, the nth response determination unit may determine the nth response information related to another response to at least a portion of the utterance by inputting an nth response determination instruction including at least one of the first utterance information to the nth-1st utterance information and the first response information to the nth-1st response information, and the nth utterance information, into the large-scale language model before outputting the nth-1st response information to the subject.
一例では、出力部104は、自然数n=2~Nに関して、第n-1応答情報が決定された後、第n応答情報が決定されるまでの間に対象者による発話が終了したと判定される場合に、第1応答情報~第n-1応答情報の少なくとも1つを出力し、第n応答情報が決定された後に対象者による発話が終了したと判定される場合に、第1応答情報~第n応答情報の少なくとも1つを出力してよい。
In one example, for natural numbers n = 2 to N, the
上記実施形態において、LLMはLLMサーバ装置4にホストされるものとして説明したが、これに限定されない。LLMは情報処理装置2にホストされてよく、端末装置3にホストされてよい。
In the above embodiment, the LLM has been described as being hosted on the
上記実施形態において、情報処理装置2が端末装置3から音声情報を取得し、当該音声情報に基づいてAIエージェントによる通話を効率化する処理を実行するものとして説明したが、これに限定されない。上記実施形態において情報処理装置2が備えるものとして説明した機能の少なくとも一部は端末装置3が備えてよい。
In the above embodiment, the
上記実施形態において、情報処理装置2は端末装置3と通信するものとして説明したが、これに限定されない。情報処理装置2と端末装置3との間には所定の中間サーバがあってよい。
In the above embodiment, the
上記実施形態では、相槌情報及び第2応答情報が決定される場合において、当該第2応答情報が出力される場合には、相槌情報もさらに出力される例について説明したが、これに限定されない。例えば、相槌決定処理及び第2応答情報の決定に係る応答決定処理が並列に実行される場合において、相槌情報を出力するか否かは、当該応答決定処理が完了するタイミングに基づいて決定され得る。一例では、相槌決定処理が完了する前に応答決定処理が完了した場合には、情報処理装置2は、相槌情報を出力することなく第2応答情報を出力し得る。これに対して、相槌決定処理が完了した後に応答決定処理が完了する場合には、情報処理装置2は、当該応答決定処理の実行中に相槌情報を出力し、その後第2応答情報を出力し得る。このような構成によれば、応答情報が既に決定されているにも関わらず相槌情報が先に出力されるような状況を回避することができ、結果として対象者に早期に応答情報を出力できる場合がある。
In the above embodiment, an example has been described in which, when the backchannel information and the second response information are determined, if the second response information is output, the backchannel information is also output, but this is not limiting. For example, when the backchannel determination process and the response determination process related to the determination of the second response information are executed in parallel, whether or not to output the backchannel information can be determined based on the timing at which the response determination process is completed. In one example, if the response determination process is completed before the backchannel determination process is completed, the
6 補足
本実施形態における文言は、矛盾が生じない範囲において、以下のように理解され得る。
6 Supplementary Note The wording in this embodiment can be understood as follows to the extent that no contradiction occurs.
本実施形態において、「所定の情報に基づいて所定の処理を実行する」ことは、当該所定の情報の少なくとも一部に基づいて当該所定の処理を実行することと、少なくとも当該所定の情報に基づいて当該所定の処理を実行することと、当該所定の情報に基づいて確率的に当該所定の処理を実行することとのいずれかであってもよい。すなわち、「所定の情報に基づいて所定の処理を実行する」ことは、当該所定の情報のみに基づいて当該所定の処理を実行することに限定されない。 In this embodiment, "executing a predetermined process based on the specified information" may mean any one of executing the predetermined process based on at least a part of the specified information, executing the predetermined process based on at least the specified information, and executing the predetermined process probabilistically based on the specified information. In other words, "executing a predetermined process based on the specified information" is not limited to executing the predetermined process based only on the specified information.
本実施形態において、「所定の処理に基づいて他の処理を実行する」ことは、当該所定の処理が実行された後に当該他の処理を実行することと、当該所定の処理と当該他の処理を連続的に実行することと、当該所定の処理により決定された情報に基づいて当該他の処理を実行することと、当該所定の処理が実行されたことを条件に当該他の処理を実行することと、当該所定の処理という手段によって当該他の処理を実行することとのいずれかであってもよい。なお、「所定の処理によって他の処理を実行する」ことも、「所定の処理に基づいて他の処理を実行する」ことと同様に理解されてよい。 In this embodiment, "executing another process based on a specified process" may mean any of the following: executing the other process after the specified process is executed; executing the specified process and the other process consecutively; executing the other process based on information determined by the specified process; executing the other process on the condition that the specified process has been executed; and executing the other process by means of the specified process. Note that "executing another process by a specified process" may be understood in the same way as "executing another process based on a specified process".
本実施形態において、「所定の情報が他の情報を含む」ことは、当該所定の情報の少なくとも一部が当該他の情報であることと、当該所定の情報に基づいて当該他の情報を取得することができる状態であることとのいずれかであってもよい。 In this embodiment, "specific information includes other information" may mean either that at least a portion of the specific information is the other information, or that the other information can be obtained based on the specific information.
本実施形態において、「所定の処理が他の処理を含む」ことは、当該所定の処理の少なくとも一部が当該他の処理であること(すなわち、当該所定の処理の結果を得る過程において当該他の処理が行われること)と、当該所定の処理の一態様が当該他の処理であることとのいずれかであってもよい。 In this embodiment, "a specified process includes another process" may mean either that at least a part of the specified process is the other process (i.e., that the other process is performed in the process of obtaining the result of the specified process) or that one aspect of the specified process is the other process.
本実施形態において、「所定の対象と他の対象とが対応する」ことは、当該所定の対象と当該他の対象とが1対1の関係にあることと、当該所定の対象に基づいて特定される所定の集合に当該他の対象が含まれることと、当該所定の対象に基づいて当該他の対象を特定し得ることとのいずれかであってもよい。なお、「所定の対象と他の対象とが対応する」ことは、そのことが例えばデータベース上で管理されることに限定されない。また、「所定の対象と他の対象とが関連付けられる」ことも、「所定の対象と他の対象とが対応する」ことと同様に理解されてよい。 In this embodiment, "a specific target corresponds to another target" may mean that the specific target and the other target are in a one-to-one relationship, that the other target is included in a specific set identified based on the specific target, or that the other target can be identified based on the specific target. Note that "a specific target corresponds to another target" is not limited to being managed, for example, on a database. In addition, "a specific target is associated with another target" may be understood in the same way as "a specific target corresponds to another target".
本実施形態において、「情報を取得する」ことは、当該情報を制御部10において処理可能にすることを含む。「情報を取得する」ことは、例えば、当該情報を他の装置から受信すること、所定の処理によりその情報を得ること、及びその情報を記憶部12から読み出すことと等であってよい。
In this embodiment, "obtaining information" includes making the information processable in the
本実施形態において、「情報を生成する」ことは、所定の処理により得られる情報を制御部10において処理可能にすることと、所定の処理により得られる情報を記憶部12に記憶することとのいずれかであってもよい。
In this embodiment, "generating information" may mean either making the information obtained by the specified processing process processable in the
本実施形態において、「情報を決定する」ことは、一以上の情報の中から少なくとも1つ選択することと、新たにその情報を生成することとのいずれかであってもよい。 In this embodiment, "determining information" may mean either selecting at least one piece of information from one or more pieces of information, or generating new information.
本実施形態において、「情報を出力する」ことは、情報を他の装置に対して送信することと、その情報を音声又は映像により出力することとのいずれかであってもよい。 In this embodiment, "outputting information" may mean either transmitting the information to another device or outputting the information as audio or video.
7 構成例
本開示は、以下の技術を含む。
7 Configuration Examples The present disclosure includes the following techniques.
[付記1]
対象者の発話に関する発話情報を取得する取得部100であって、発話情報は、第1の発話に関する第1発話情報と、当該第1の発話より後の第2の発話に関する第2発話情報とを含む、取得部100と、第1発話情報を含む第1応答決定指示を大規模言語モデルに入力することによって、発話の少なくとも一部に対する応答に関する第1応答情報を決定する第1応答決定部102aと、発話に関する所定の条件が満たされる場合に、第1応答情報を対象者に出力する前に、第1発話情報及び/又は第1応答情報と、第2発話情報とを含む第2応答決定指示を大規模言語モデルに入力することによって、発話の少なくとも一部に対する他の応答に関する第2応答情報を決定する第2応答決定部102bと、所定の条件が満たされない場合には第1応答情報を出力し、所定の条件が満たされる場合には第1応答情報及び第2応答情報の少なくとも一方を出力する出力部106と、を備える、情報処理装置2。
[Appendix 1]
an acquisition unit that acquires speech information regarding an utterance of a target person, the speech information including first utterance information regarding a first utterance and second utterance information regarding a second utterance subsequent to the first utterance; a first response determination unit that determines first response information regarding a response to at least a part of the utterance by inputting a first response determination instruction including the first utterance information into a large-scale language model; a second response determination unit that determines second response information regarding another response to at least a part of the utterance by inputting a second response determination instruction including the first utterance information and/or the first response information and the second utterance information into the large-scale language model before outputting the first response information to the target person when a predetermined condition regarding the utterance is satisfied; and an output unit that outputs the first response information when the predetermined condition is not satisfied, and outputs at least one of the first response information and the second response information when the predetermined condition is satisfied.
[付記2]
第1応答情報を決定する際に、第1発話情報に対応する相槌に関する相槌情報を決定する相槌決定部102c、をさらに備え、出力部106は、相槌情報をさらに出力する、
付記1に記載の情報処理装置2。
[Appendix 2]
a backchannel determining unit that determines backchannel information related to a backchannel corresponding to the first utterance information when determining the first response information, and the output unit further outputs the backchannel information.
2. The
[付記3]
出力部106が、所定の条件が満たされない場合には、相槌情報を出力した後に第1応答情報を出力し、所定の条件が満たされる場合には、相槌情報を出力した後に第1応答情報及び第2応答情報の少なくとも一方を出力する、付記2に記載の情報処理装置2。
[Appendix 3]
An
[付記4]
相槌決定部102cは、第1発話情報を含む相槌決定指示を大規模言語モデルに入力することによって相槌情報を決定する、付記2又は3に記載の情報処理装置2。
[Appendix 4]
The
[付記5]
発話に第1の区切りが生じた否かを判定する判定部104、をさらに備え、第1発話情報は、発話のうち、第1の区切りまでの部分に関する情報を含み、第1応答決定部102aは、発話に第1の区切りが生じたと判定部104によって判定された場合に第1応答決定指示を大規模言語モデルに入力する、付記1に記載の情報処理装置2。
[Appendix 5]
The
[付記6]
判定部104は、発話の第1の区切りの後に第2の区切りが生じたか否かをさらに判定し、第2発話情報は、発話のうち、第2の区切りまでの部分に関する情報を含み、第2応答決定部102bは、発話に第2の区切りが生じたと判定部104によって判定された場合に第2応答決定指示を大規模言語モデルに入力する、付記5に記載の情報処理装置2。
[Appendix 6]
The
[付記7]
判定部104は、発話の第2の区切りの後に、応答の出力に関する所定の時間が経過したか否かをさらに判定し、出力部106は、第2の区切りの後に所定の時間が経過したと判定された場合に第1応答情報及び第2応答情報の少なくとも一方を出力する、付記6に記載の情報処理装置2。
[Appendix 7]
The
[付記8]
第1応答情報を決定する際に、第1発話情報に対応する相槌に関する相槌情報を決定する相槌決定部102c、をさらに備え、出力部106は、相槌情報をさらに出力し、所定の時間は、相槌情報に基づいて決定される、付記7に記載の情報処理装置2。
[Appendix 8]
An
[付記9]
出力部106は、所定の条件が満たされない場合には、対象者の端末装置が第1応答情報を音声により出力するように制御し、所定の条件が満たされる場合には、第1応答情報及び第2応答情報の少なくとも一方を音声により出力するように制御する、付記1~8のいずれか1つに記載の情報処理装置2。
[Appendix 9]
The
[付記10]
第1応答決定部102aは、第1応答情報を決定する際に、当該第1応答情報を音声により出力するための情報をさらに決定し、第2応答決定部102bは、第2応答情報を決定する際に、当該第2応答情報を音声により出力するための情報をさらに決定する、付記9に記載の情報処理装置2。
[Appendix 10]
The
[付記11]
一以上のテキストのそれぞれを音声により出力するための情報を記憶する記憶部12、をさらに備え、第1応答情報が一以上のテキストの少なくとも1つと整合する場合には、当該第1応答情報を音声により出力するための情報を決定することは、当該整合するテキストを音声により出力するための情報を記憶部から取得することを含み、第1応答情報が一以上のテキストのいずれとも整合しない場合には、当該第1応答情報を音声により出力するための情報を決定することは、所定の音声生成プログラムに基づいて当該第1応答情報を音声により出力するための情報を生成することを含み、第2応答情報が一以上のテキストの少なくとも1つと整合する場合には、当該第2応答情報を音声により出力するための情報を決定することは、当該整合するテキストを音声により出力するための情報を記憶部から取得することを含み、第2応答情報が一以上のテキストのいずれとも整合しない場合には、当該第2応答情報を音声により出力するための情報を決定することは、所定の音声生成プログラムに基づいて当該第2応答情報を音声により出力するための情報を生成することを含む、付記10に記載の情報処理装置2。
[Appendix 11]
and a storage unit (12) configured to store information for audio output of each of the one or more texts, wherein, when the first response information matches at least one of the one or more texts, determining information for audio output of the first response information includes acquiring information for audio output of the matching text from the storage unit, and when the first response information does not match any of the one or more texts, determining information for audio output of the first response information includes generating information for audio output of the first response information based on a predetermined voice generation program, when the second response information matches at least one of the one or more texts, determining information for audio output of the second response information includes acquiring information for audio output of the matching text from the storage unit, and when the second response information does not match any of the one or more texts, determining information for audio output of the second response information includes generating information for audio output of the second response information based on a predetermined voice generation program.
[付記12]
情報処理装置2が、対象者の発話に関する発話情報を取得することであって、発話情報は、第1の発話に関する第1発話情報と、当該第1の発話より後の第2の発話に関する第2発話情報とを含む、発話情報を取得することと、第1発話情報を含む第1応答決定指示を大規模言語モデルに入力することによって、発話の少なくとも一部に対する応答に関する第1応答情報を決定することと、発話に関する所定の条件が満たされる場合に、第1応答情報を対象者に出力する前に、第1発話情報及び/又は第1応答情報と、第2発話情報とを含む第2応答決定指示を大規模言語モデルに入力することによって、発話の少なくとも一部に対する他の応答に関する第2応答情報を決定することと、所定の条件が満たされない場合には第1応答情報を出力し、所定の条件が満たされる場合には第1応答情報及び第2応答情報の少なくとも一方を出力することと、を実行する、情報処理方法。
[Appendix 12]
an information processing method in which an
[付記13]
情報処理装置2に、対象者の発話に関する発話情報を取得することであって、発話情報は、第1の発話に関する第1発話情報と、当該第1の発話より後の第2の発話に関する第2発話情報とを含む、発話情報を取得することと、第1発話情報を含む第1応答決定指示を大規模言語モデルに入力することによって、発話の少なくとも一部に対する応答に関する第1応答情報を決定することと、発話に関する所定の条件が満たされる場合に、第1応答情報を対象者に出力する前に、第1発話情報及び/又は第1応答情報と、第2発話情報とを含む第2応答決定指示を大規模言語モデルに入力することによって、発話の少なくとも一部に対する他の応答に関する第2応答情報を決定することと、所定の条件が満たされない場合には第1応答情報を出力し、所定の条件が満たされる場合には第1応答情報及び第2応答情報の少なくとも一方を出力することと、を実行させる、プログラム。
[Appendix 13]
A program that causes an information processing device (2) to execute the following steps: acquire speech information regarding an utterance of a target person, the speech information including first utterance information regarding a first utterance and second utterance information regarding a second utterance subsequent to the first utterance; determine first response information regarding a response to at least a portion of the utterance by inputting a first response determination instruction including the first utterance information into a large-scale language model; determine second response information regarding another response to at least a portion of the utterance by inputting a second response determination instruction including the first utterance information and/or the first response information and the second utterance information into the large-scale language model before outputting the first response information to the target, when a predetermined condition regarding the utterance is satisfied; output the first response information when the predetermined condition is not satisfied, and output at least one of the first response information and the second response information when the predetermined condition is satisfied.
1…システム、2…情報処理装置、3…端末装置、4…LLMサーバ装置、10…制御部、12…記憶部、70…コンピュータ、100…取得部、102…決定部、102a…第1応答決定部、102b…第2応答決定部、102c…相槌決定部、104…判定部、106…出力部、700…プロセッサ 1...system, 2...information processing device, 3...terminal device, 4...LLM server device, 10...control unit, 12...storage unit, 70...computer, 100...acquisition unit, 102...determination unit, 102a...first response determination unit, 102b...second response determination unit, 102c...backchannel determination unit, 104...determination unit, 106...output unit, 700...processor
Claims (13)
前記第1発話情報を含む第1応答決定指示を大規模言語モデルに入力することによって、前記発話の少なくとも一部に対する応答に関する第1応答情報を決定する第1応答決定部と、
前記発話に関する所定の条件が満たされる場合に、前記第1応答情報を前記対象者に出力する前に、前記第1発話情報及び/又は第1応答情報と、前記第2発話情報とを含む第2応答決定指示を大規模言語モデルに入力することによって、前記発話の少なくとも一部に対する他の応答に関する第2応答情報を決定する第2応答決定部と、
前記所定の条件が満たされない場合には前記第1応答情報を出力し、前記所定の条件が満たされる場合には前記第1応答情報及び前記第2応答情報の少なくとも一方を出力する出力部と、
を備える、情報処理装置。 an acquisition unit that acquires speech information related to an utterance of a target person, the speech information including first utterance information related to a first utterance and second utterance information related to a second utterance subsequent to the first utterance;
a first response determination unit that determines first response information related to a response to at least a part of the utterance by inputting a first response determination instruction including the first utterance information into a large-scale language model;
a second response determination unit that determines second response information related to another response to at least a part of the utterance by inputting a second response determination instruction including the first utterance information and/or the first response information and the second utterance information into a large-scale language model before outputting the first response information to the target person when a predetermined condition related to the utterance is satisfied;
an output unit that outputs the first response information when the predetermined condition is not satisfied, and outputs at least one of the first response information and the second response information when the predetermined condition is satisfied;
An information processing device comprising:
前記出力部は、前記相槌情報をさらに出力する、
請求項1に記載の情報処理装置。 A backchannel determination unit that determines backchannel information related to a backchannel corresponding to the first utterance information when determining the first response information,
The output unit further outputs the backchannel information.
The information processing device according to claim 1 .
請求項2に記載の情報処理装置。 When the predetermined condition is not satisfied, the output unit outputs the backchannel information and then outputs the first response information, and when the predetermined condition is satisfied, the output unit outputs the backchannel information and then outputs at least one of the first response information and the second response information.
The information processing device according to claim 2 .
請求項2に記載の情報処理装置。 The backchannel determination unit determines the backchannel information by inputting a backchannel determination instruction including the first utterance information into a large-scale language model.
The information processing device according to claim 2 .
前記第1発話情報は、前記発話のうち、前記第1の区切りまでの部分に関する情報を含み、
前記第1応答決定部は、前記発話に前記第1の区切りが生じたと前記判定部によって判定された場合に前記第1応答決定指示を大規模言語モデルに入力する、
請求項1に記載の情報処理装置。 a determination unit that determines whether a first division has occurred in the utterance,
the first utterance information includes information on a portion of the utterance up to the first break,
the first response determination unit inputs the first response determination instruction to a large-scale language model when the determination unit determines that the first break has occurred in the utterance.
The information processing device according to claim 1 .
前記第2発話情報は、前記発話のうち、前記第2の区切りまでの部分に関する情報を含み、
前記第2応答決定部は、前記発話に前記第2の区切りが生じたと前記判定部によって判定された場合に前記第2応答決定指示を大規模言語モデルに入力する、
請求項5に記載の情報処理装置。 The determination unit further determines whether a second segment of the utterance occurs after the first segment of the utterance;
the second utterance information includes information on a portion of the utterance up to the second break,
the second response determination unit inputs an instruction to determine the second response to a large-scale language model when the determination unit determines that the second break has occurred in the utterance.
The information processing device according to claim 5 .
前記出力部は、前記第2の区切りの後に前記所定の時間が経過したと前記判定部によって判定された場合に前記第1応答情報及び前記第2応答情報の少なくとも一方を出力する、
請求項6に記載の情報処理装置。 The determination unit further determines whether or not a predetermined time for outputting a response has elapsed after the second division of the utterance;
the output unit outputs at least one of the first response information and the second response information when the determination unit determines that the predetermined time has elapsed after the second division.
The information processing device according to claim 6.
前記出力部は、前記相槌情報をさらに出力し、
前記所定の時間は、前記相槌情報に基づいて決定される、
請求項7に記載の情報処理装置。 A backchannel determination unit that determines backchannel information related to a backchannel corresponding to the first utterance information when determining the first response information,
The output unit further outputs the backchannel information,
The predetermined time is determined based on the backchannel information.
The information processing device according to claim 7.
請求項1に記載の情報処理装置。 The output unit controls the terminal device of the subject to output the first response information by voice when the predetermined condition is not satisfied, and controls the terminal device of the subject to output at least one of the first response information and the second response information by voice when the predetermined condition is satisfied.
The information processing device according to claim 1 .
前記第2応答決定部は、前記第2応答情報を決定する際に、当該第2応答情報を音声により出力するための情報をさらに決定する、
請求項9に記載の情報処理装置。 The first response determination unit further determines information for outputting the first response information by voice when determining the first response information,
The second response determination unit further determines information for outputting the second response information by voice when determining the second response information.
The information processing device according to claim 9.
前記第1応答情報が前記一以上のテキストの少なくとも1つと整合する場合には、当該第1応答情報を音声により出力するための情報を決定することは、当該整合するテキストを音声により出力するための情報を前記記憶部から取得することを含み、
前記第1応答情報が前記一以上のテキストのいずれとも整合しない場合には、当該第1応答情報を音声により出力するための情報を決定することは、所定の音声生成プログラムに基づいて当該第1応答情報を音声により出力するための情報を生成することを含み、
前記第2応答情報が前記一以上のテキストの少なくとも1つと整合する場合には、当該第2応答情報を音声により出力するための情報を決定することは、当該整合するテキストを音声により出力するための情報を前記記憶部から取得することを含み、
前記第2応答情報が前記一以上のテキストのいずれとも整合しない場合には、当該第2応答情報を音声により出力するための情報を決定することは、前記所定の音声生成プログラムに基づいて当該第2応答情報を音声により出力するための情報を生成することを含む、
請求項10に記載の情報処理装置。 a storage unit configured to store information for outputting each of the one or more texts by voice,
When the first response information is consistent with at least one of the one or more texts, determining information for outputting the first response information by voice includes obtaining information for outputting the consistent text by voice from the storage unit;
When the first response information does not match any of the one or more texts, determining information for outputting the first response information by voice includes generating information for outputting the first response information by voice based on a predetermined voice generation program;
When the second response information is consistent with at least one of the one or more texts, determining information for outputting the second response information by voice includes obtaining information for outputting the consistent text by voice from the storage unit;
When the second response information does not match any of the one or more texts, determining information for outputting the second response information by voice includes generating information for outputting the second response information by voice based on the predetermined voice generation program.
The information processing device according to claim 10.
対象者の発話に関する発話情報を取得することであって、前記発話情報は、第1の発話に関する第1発話情報と、当該第1の発話より後の第2の発話に関する第2発話情報とを含む、発話情報を取得することと、
前記第1発話情報を含む第1応答決定指示を大規模言語モデルに入力することによって、前記発話の少なくとも一部に対する応答に関する第1応答情報を決定することと、
前記発話に関する所定の条件が満たされる場合に、前記第1応答情報を前記対象者に出力する前に、前記第1発話情報及び/又は第1応答情報と、前記第2発話情報とを含む第2応答決定指示を大規模言語モデルに入力することによって、前記発話の少なくとも一部に対する他の応答に関する第2応答情報を決定することと、
前記所定の条件が満たされない場合には前記第1応答情報を出力し、前記所定の条件が満たされる場合には前記第1応答情報及び前記第2応答情報の少なくとも一方を出力することと、
を実行する、情報処理方法。 An information processing device,
acquiring speech information relating to an utterance by a target person, the speech information including first utterance information relating to a first utterance and second utterance information relating to a second utterance subsequent to the first utterance;
determining first response information related to a response to at least a portion of the utterance by inputting a first response determination instruction including the first utterance information into a large-scale language model;
determining second response information related to another response to at least a portion of the utterance by inputting a second response determination instruction including the first utterance information and/or the first response information and the second utterance information into a large-scale language model before outputting the first response information to the target person when a predetermined condition related to the utterance is satisfied;
outputting the first response information when the predetermined condition is not satisfied, and outputting at least one of the first response information and the second response information when the predetermined condition is satisfied;
An information processing method.
対象者の発話に関する発話情報を取得することであって、前記発話情報は、第1の発話に関する第1発話情報と、当該第1の発話より後の第2の発話に関する第2発話情報とを含む、発話情報を取得することと、
前記第1発話情報を含む第1応答決定指示を大規模言語モデルに入力することによって、前記発話の少なくとも一部に対する応答に関する第1応答情報を決定することと、
前記発話に関する所定の条件が満たされる場合に、前記第1応答情報を前記対象者に出力する前に、前記第1発話情報及び/又は第1応答情報と、前記第2発話情報とを含む第2応答決定指示を大規模言語モデルに入力することによって、前記発話の少なくとも一部に対する他の応答に関する第2応答情報を決定することと、
前記所定の条件が満たされない場合には前記第1応答情報を出力し、前記所定の条件が満たされる場合には前記第1応答情報及び前記第2応答情報の少なくとも一方を出力することと、
を実行させる、プログラム。 In the information processing device,
acquiring speech information relating to an utterance of a target person, the speech information including first utterance information relating to a first utterance and second utterance information relating to a second utterance subsequent to the first utterance;
determining first response information related to a response to at least a portion of the utterance by inputting a first response determination instruction including the first utterance information into a large-scale language model;
determining second response information related to another response to at least a portion of the utterance by inputting a second response determination instruction including the first utterance information and/or the first response information and the second utterance information into a large-scale language model before outputting the first response information to the target person when a predetermined condition related to the utterance is satisfied;
outputting the first response information when the predetermined condition is not satisfied, and outputting at least one of the first response information and the second response information when the predetermined condition is satisfied;
A program to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2025046733A JP7689787B1 (en) | 2025-03-21 | 2025-03-21 | Information processing device, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2025046733A JP7689787B1 (en) | 2025-03-21 | 2025-03-21 | Information processing device, information processing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP7689787B1 true JP7689787B1 (en) | 2025-06-09 |
Family
ID=95978941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2025046733A Active JP7689787B1 (en) | 2025-03-21 | 2025-03-21 | Information processing device, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7689787B1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06259090A (en) * | 1993-03-09 | 1994-09-16 | Nec Corp | Voice interactive system |
JPH08263092A (en) * | 1995-03-23 | 1996-10-11 | N T T Data Tsushin Kk | Response voice generating method and voice interactive system |
JP2024521053A (en) * | 2021-09-07 | 2024-05-28 | グーグル エルエルシー | Using large language models in generating automated assistant responses |
-
2025
- 2025-03-21 JP JP2025046733A patent/JP7689787B1/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06259090A (en) * | 1993-03-09 | 1994-09-16 | Nec Corp | Voice interactive system |
JPH08263092A (en) * | 1995-03-23 | 1996-10-11 | N T T Data Tsushin Kk | Response voice generating method and voice interactive system |
JP2024521053A (en) * | 2021-09-07 | 2024-05-28 | グーグル エルエルシー | Using large language models in generating automated assistant responses |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6827479B2 (en) | Non-deterministic task initiation with personal assistant module | |
US10079013B2 (en) | Sharing intents to provide virtual assistance in a multi-person dialog | |
US8818801B2 (en) | Dialogue speech recognition system, dialogue speech recognition method, and recording medium for storing dialogue speech recognition program | |
US10096316B2 (en) | Sharing intents to provide virtual assistance in a multi-person dialog | |
US11854533B2 (en) | Speaker awareness using speaker dependent speech model(s) | |
JP7682950B2 (en) | Method and apparatus for managing reservations - Patents.com | |
CN111258529B (en) | Electronic apparatus and control method thereof | |
WO2020233075A1 (en) | Method, apparatus, device, and storage medium for reserving meeting room on basis of voice recognition | |
US20230395066A1 (en) | Hot-word free pre-emption of automated assistant response presentation | |
JP2018197924A (en) | Information processing apparatus, dialogue processing method, and dialogue processing program | |
JP6449368B2 (en) | Conversation providing apparatus, conversation providing method, and program | |
KR20190074508A (en) | Method for crowdsourcing data of chat model for chatbot | |
JP2018049132A (en) | Voice dialogue system and method for voice dialogue | |
CN107808662B (en) | Method and device for updating grammar rule base for speech recognition | |
JP7058588B2 (en) | Conversation system and conversation program | |
JP7689787B1 (en) | Information processing device, information processing method, and program | |
US20250218423A1 (en) | Dynamic adaptation of speech synthesis by an automated assistant during automated telephone call(s) | |
CN119096252A (en) | Communication method, electronic device, storage medium and product | |
US20250218440A1 (en) | Context-based speech assistance | |
JP7462995B1 (en) | Information processing system, information processing method, and program | |
JP7435733B2 (en) | Dialogue support device, dialogue support method and program | |
JP2018097201A (en) | Voice dialog device and voice dialog method | |
JP2025136205A (en) | Call support device, call support method, and call support program | |
JP2025123823A (en) | Information processing device, information processing method, and program | |
JP2020122821A (en) | Answering duty estimation method and interactive system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20250418 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20250418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250519 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250521 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7689787 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |