JP2025037354A - Communication support device and communication support method - Google Patents
Communication support device and communication support method Download PDFInfo
- Publication number
- JP2025037354A JP2025037354A JP2023144235A JP2023144235A JP2025037354A JP 2025037354 A JP2025037354 A JP 2025037354A JP 2023144235 A JP2023144235 A JP 2023144235A JP 2023144235 A JP2023144235 A JP 2023144235A JP 2025037354 A JP2025037354 A JP 2025037354A
- Authority
- JP
- Japan
- Prior art keywords
- information
- telephone
- search
- call
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【課題】 2者間の通話や電話会議、オンライン会議を行う場合に、各話者(参加者)を適切に支援して、話者全員の利便性を向上させ、通話や会議の質を向上させる。【解決手段】 音声認識1211が、それぞれの話者からの音声情報をテキストデータに変換する。あいまい発言検出部1212が、音声認識部1211からのテキストデータを解析し、支援が必要となる所定部分を検出する。キーワード抽出部1213、検索実行部123、訂正文作成部125が機能して、当該所定部分に応じたメッセージを作成し、訂正提供部126が、当該メッセージを、テキスト情報として、または、音声情報に変換して、話者に提供する。【選択図】図2[Problem] When conducting a two-way call, telephone conference, or online conference, each speaker (participant) is appropriately supported, improving the convenience for all speakers and improving the quality of the call or conference. [Solution] A voice recognition unit 1211 converts voice information from each speaker into text data. An ambiguous utterance detection unit 1212 analyzes the text data from the voice recognition unit 1211 and detects a specific portion that requires support. A keyword extraction unit 1213, a search execution unit 123, and a correction sentence creation unit 125 function to create a message corresponding to the specific portion, and a correction provision unit 126 converts the message into text information or voice information and provides it to the speaker. [Selected Figure] Figure 2
Description
この発明は、複数の話者間でネットワークを通じて音声情報を送受する通話を行う場合に、各話者を支援する装置、方法に関する。 This invention relates to a device and method for supporting each speaker when multiple speakers make a call to send and receive voice information over a network.
後に記す特許文献1には、販売支援システムに関する発明が開示されている。当該販売支援システムは、顧客とセールスマンとの会話を音声データとして通信端末装置からネットワークを介して販売支援用サーバへ送信し、当該サーバにてリアルタイムで話した内容の間違いを訂正し、これを間違い訂正のメッセージとして通信端末装置へ送信する。これにより、話した内容に間違いが存在していた場合に、即座に訂正することができる。従って、話の内容が間違ったまま商談が進むことによるトラブルを回避し、顧客に対して迷惑をかけないようにすることができる。
上述した特許文献1に開示された販売支援システムは、顧客に応対するセールスマンを支援するためのものであり、顧客の間違いまでをも訂正するものではない。近年においては、電話会議やオンライン会議(Web会議)が頻繁に行われる状況にある。電話会議は、それぞれが遠隔地に所在する複数人の参加者が、電話回線を通じて接続された電話端末を通じて、相互に通話音声を送受し合い、リアルタイムに会議を行うものである。オンライン会議(Web会議)は、インターネット環境とPC(Personal Computer)やスマートフォンなどの携帯通信端末といったデバイスを利用して遠隔地の参加者をつなぎ、参加者間で音声情報や映像情報を送受して、リアルタイムに会議を行うものである。
The sales support system disclosed in the above-mentioned
電話会議やWeb会議の場合、参加者は、従来の電話通信のように、発呼者と着呼者との2名に限られることなく、2名以上の複数人で会議を行うことが可能である。このため、例えば、会議の主催者一人だけについて、通話内容の誤りを検出し、当該主催者だけに通知しただけでは、参加者全員の利便性を向上させることはできず、会議全体の質の向上につながらない。また、通話内容の誤りを訂正するだけでなく、会議で話題に上がった例えば人名や出来事などの不明な事項を、正確な情報として補足する必要もある。更には、会議の参加者や会議の内容から考えて、コンプライアンス違反やハラスメントといった観点から不適切な発言が伝達されることを防止する必要もある。 In the case of telephone conferences and web conferences, participants are not limited to two people, the caller and the callee, as in conventional telephone communication, but can be two or more people. For this reason, for example, simply detecting an error in the content of a call for only one person, the organizer of the conference, and notifying only that organizer will not improve the convenience for all participants, and will not lead to an improvement in the quality of the conference as a whole. In addition to correcting errors in the content of the call, it is also necessary to supplement with accurate information any unclear matters that were discussed in the conference, such as names or events. Furthermore, it is also necessary to prevent the transmission of inappropriate remarks from the perspective of compliance violations and harassment, taking into account the participants and content of the conference.
以上のことに鑑み、例えば、2者間の通話や電話会議、オンライン会議を行う場合に、各話者(参加者)を適切に支援して、話者全員の利便性を向上させると共に、2者間の通話や電話会議、オンライン会議の質を向上させることを目的とする。 In view of the above, the object of the present invention is to provide appropriate support to each speaker (participant) in, for example, a two-party call, telephone conference, or online conference, thereby improving the convenience for all speakers and improving the quality of the two-party call, telephone conference, or online conference.
上記課題を解決するため、請求項1に記載の発明の通話支援装置は、
複数の話者間でネットワークを通じて音声情報を送受する通話を行う場合に、各話者からの音声情報を中継する通話支援装置であって、
それぞれの話者からの音声情報をテキストデータに変換する音声認識手段と、
前記音声認識手段からの前記テキストデータを解析し、支援が必要となる所定部分を検出する検出手段と、
前記検出手段で前記所定部分が検出された場合に、前記所定部分に応じたメッセージを作成し、あるいは、前記音声情報の前記所定部分に対応する部分を加工して加工済み音声情報を作成する作成手段と、
前記メッセージを、テキスト情報として、または、音声情報に変換して、少なくとも前記所定部分を検出した音声情報の提供元の話者に対して提供し、あるいは、前記加工済み音声情報を、前記所定部分を検出した音声情報の提供元の話者以外の話者に対して提供する提供手段と
を備えることを特徴とする。
In order to solve the above problem, the communication support device of the present invention described in
A communication support device that relays voice information from each speaker when a call is made between a plurality of speakers by transmitting and receiving voice information over a network, comprising:
a speech recognition means for converting speech information from each speaker into text data;
a detection means for analyzing the text data from the speech recognition means and detecting a predetermined portion requiring assistance;
a creating means for creating a message corresponding to the predetermined portion when the detecting means detects the predetermined portion, or for creating processed voice information by processing a portion of the voice information corresponding to the predetermined portion;
and a providing means for converting the message into text information or into audio information and providing the converted audio information to a speaker who provided the audio information from which at least the specified portion was detected, or for providing the processed audio information to a speaker other than the speaker who provided the audio information from which the specified portion was detected.
請求項1に記載の発明の通話支援装置によれば、当該通話支援装置は、複数の話者間でネットワークを通じて音声情報を送受する通話を行う場合に、各話者からの音声情報を中継するものである。当該通話支援装置においては、音声認識手段によって、それぞれの話者からの音声情報がテキストデータに変換される。検出手段によって、音声認識手段からのテキストデータが解析され、支援が必要となる所定部分が検出される。
According to the communication support device of the invention described in
検出手段により所定部分が検出されると、作成手段により、当該所定部分に応じたメッセージが作成され、あるいは、話者からの音声情報の当該所定部分に対応する部分を加工して加工済み音声情報が作成される。提供手段によって、作成手段で作成された当該メッセージが、テキストデータとして、あるいは、音声情報に変換されて、少なくとも当該所定部分を検出した音声情報の提供元の話者に対して提供され、あるいは、当該加工済み音声情報が、当該所定部分を検出した音声情報の提供元の話者以外の話者に対して提供される。 When the detection means detects the specified portion, the creation means creates a message corresponding to the specified portion, or processes the portion of the voice information from the speaker that corresponds to the specified portion to create processed voice information. The provision means converts the message created by the creation means into text data or voice information and provides it to at least the speaker who provided the voice information that detected the specified portion, or provides the processed voice information to a speaker other than the speaker who provided the voice information that detected the specified portion.
この発明によれば、2者間の通話や電話会議、オンライン会議を行う場合に、各話者(参加者)を適切に支援することができる。これにより、話者全員の利便性を向上させると共に、2者間の通話や電話会議、オンライン会議の質の向上を実現できる。 According to this invention, when a two-party call, telephone conference, or online conference is held, it is possible to appropriately support each speaker (participant). This improves the convenience for all speakers and also improves the quality of the two-party call, telephone conference, or online conference.
以下、図を参照しながら、この発明により装置、方法の実施の形態について説明する。この発明による装置、方法は、例えば、電話の呼制御を行う主装置やPBX(Private Branch eXchange)、SIP(Session Initiation Protocol)サーバなどの電話制御装置やオンライン会議を行うための会議サーバ、クラウドPBXなどに適用可能なものである。ここで、主装置、PBX、SIPサーバなどの電話制御装置は、会社等において、いわゆるビジネスホンシステムを構築するために構内に設けられる装置であり、通話者双方の通話音声を中継する。 Below, an embodiment of the device and method according to the present invention will be described with reference to the drawings. The device and method according to the present invention can be applied to, for example, telephone control devices such as a main unit that controls telephone calls, a PBX (Private Branch eXchange), and a SIP (Session Initiation Protocol) server, a conference server for online conferences, and a cloud PBX. Here, telephone control devices such as a main unit, a PBX, and a SIP server are devices installed on the premises of a company or the like to build a so-called business phone system, and relay the voices of both callers.
また、会議サーバは、オンライン会議を実現するためにインターネット上に設けられるサーバ装置であり、オンライン会議の参加者全員の音声を中継する。また、クラウドPBXは、インターネット上(クラウド上)にPBXの機能を構築し、インターネット回線を利用してビジネスフォンの機能を利用できるようにするものであり、通話者双方の通話音声を中継する。また、電話会議は、電話制御装置やクラウドPBXに電話会議のアクセスポイントとなるための機能を備えることにより実現できる。 The conference server is a server device installed on the Internet to realize online conferences, and relays the voices of all participants in the online conference. The cloud PBX builds PBX functions on the Internet (on the cloud), allowing business phone functions to be used over an Internet line, and relays the voices of both callers. A telephone conference can be realized by providing a telephone control device or cloud PBX with the functionality to become an access point for the telephone conference.
この発明による装置、方法は、電話制御装置、会議サーバ、クラウドPBXなどの、通話や会議を行う全ての話者の音声情報を中継する種々の装置に対して適用可能なものである。換言すれば、この発明による装置、方法は、複数の話者間で、種々のネットワークを通じて音声情報を送受する通話を行う場合に、各話者からの音声情報を中継する装置に適用可能なものである。以下に説明する実施の形態においては、説明を簡単にするため、この発明による装置、方法を、いわゆるビジネスホンシステムを構築するためにオフィスなどの構内に設けられる電話制御装置に適用し、2者間で通話を行う場合を例にして説明する。 The device and method of the present invention are applicable to various devices that relay the voice information of all speakers who make a call or hold a conference, such as a telephone control device, a conference server, and a cloud PBX. In other words, the device and method of the present invention are applicable to devices that relay voice information from each speaker when a call is made between multiple speakers in which voice information is sent and received over various networks. In the embodiment described below, for simplicity, the device and method of the present invention are applied to a telephone control device installed on the premises of an office or the like to build a so-called business phone system, and a call between two people is described as an example.
なお、「通話」との文言は、狭義には、電話で話をすることを意味する。しかし、この明細書において「通話」との文言は、複数の話者間で所定のネットワークを通じてリアルタイムに音声情報を送受して会話をすることを含むものとする。すなわち、この明細書において、「通話」との文言は、電話回線を通じた2者間の電話通信だけを意味するものではなく、電話会議やオンライン会議といった複数の話者がリアルタイムで音声により打合せや会議を行う場合も含むものとする。 In the narrow sense, the term "call" means talking on the telephone. However, in this specification, the term "call" includes conversation between multiple speakers by sending and receiving voice information in real time over a specified network. In other words, in this specification, the term "call" does not only mean telephone communication between two parties over a telephone line, but also includes cases where multiple speakers hold meetings or conferences by voice in real time, such as telephone conferences and online meetings.
[通話支援システムの構成例]
図1は、実施の形態の通話支援システムの構成例を説明するための図である。図1において、中央部分に示した広域ネットワーク6は、外線電話網61と、IP(Internet Protocol)網62とを含む。外線電話網61は、公衆交換電話網、携帯電話網などを含み、主に音声通話サービスを実現するものである。IP網62は、インターネット・プロトコル・スイート技術を利用して相互接続されたコンピュータネットワークを意味し、いわゆる「インターネット」と等価のものである。
[Example of configuration of a call support system]
Fig. 1 is a diagram for explaining an example of the configuration of a telephone communication support system according to an embodiment. In Fig. 1, a wide area network 6 shown in the center includes an external telephone network 61 and an IP (Internet Protocol) network 62. The external telephone network 61 includes a public switched telephone network, a mobile phone network, etc., and mainly realizes voice communication services. The IP network 62 refers to a computer network interconnected using Internet Protocol Suite technology, and is equivalent to the so-called "Internet."
外線電話網61とIP網62とに接続された電話制御装置1A、1B、1Cには、内線電話網2を介して、複数の内線電話端末(以下、電話端末と記載する。)3(1)、3(2)、3(3)、…が接続されて、ビジネスホンシステムを構成している。電話制御装置1A、1B、1Cは、内線と外線との間の接続や内線内の接続を制御する。すなわち、電話制御装置1A、1B、1Cは、複数の電話端末3(1)、3(2)、3(3)、…が接続されたものであり、内線と外線の間や内線内の通信の接続、切断、転送等のいわゆる呼制御を行うものである。
Plural internal telephone terminals (hereafter referred to as telephone terminals) 3(1), 3(2), 3(3), ... are connected to telephone control devices 1A, 1B, 1C, which are connected to an external telephone network 61 and an IP network 62, via an
なお、電話制御装置1A、1B、1Cが、IP網62にも接続されているのは、IP網62を通じて、VoIP技術を利用したIP電話サービスの利用も可能にしているためである。また、電話制御装置1A、1B、1Cというように分けているのは、呼制御を行う機能の他に、それぞれが異なる機能を備えるためである。電話制御装置1A、1B、1Cが備える異なる機能の詳細については後述する。 The telephone control devices 1A, 1B, and 1C are also connected to the IP network 62 because it is possible to use IP telephone services that use VoIP technology through the IP network 62. The telephone control devices are divided into 1A, 1B, and 1C because, in addition to the function of performing call control, each device has different functions. The different functions of the telephone control devices 1A, 1B, and 1C will be described in detail later.
また、電話制御装置1A、1B、1Cは、LAN(Local Area Network)4を介して、内部情報サーバ5(1)が接続されている。内部情報サーバ5(1)は、例えば、顧客情報DB(Data Base)、取引情報DB、製品情報DBなどの社内において利用される種々の情報を管理するサーバ装置である。なお、内部情報サーバ5(1)は、1台に限るものではなく、複数の内部情報サーバ5(1)、5(2)、…が設けられ、それぞれが異なる情報を管理する場合もある。このように、電話制御装置1A、1B、1Cは、LAN4を通じて内部情報サーバ5(1)等と接続されることにより、内部情報サーバ5(1)等から必要となる情報の取得が可能になっている。
The telephone control devices 1A, 1B, and 1C are also connected to an internal information server 5(1) via a LAN (Local Area Network) 4. The internal information server 5(1) is a server device that manages various information used within the company, such as a customer information DB (Data Base), a transaction information DB, and a product information DB. The internal information server 5(1) is not limited to one unit, and multiple internal information servers 5(1), 5(2), ... may be provided, each managing different information. In this way, the telephone control devices 1A, 1B, and 1C are connected to the internal information server 5(1) etc. via the
また、図1に示すように、広域ネットワーク6には、外線電話端末7(1)や情報提供サーバ8(1)が接続されている。図1においては図示しないが、携帯電話網の基地局を介して、スマートフォンなどの携帯通信端末も接続可能である。なお、図1において、外線電話端末7(1)は、1台しか示していないが、実際には、外線電話端末7(2)、7(3)、…というように、多数のものが接続されている。また、外線電話端末7(1)、7(2)、7(3)、…は、家庭に配置される固定電話端末のように、広域ネットワーク6に接続されている場合もあれば、他の電話制御装置を介して接続され、ビジネスホンシステムを構成するものとして用いられている場合もある。 As shown in FIG. 1, an outside telephone terminal 7(1) and an information providing server 8(1) are connected to the wide area network 6. Although not shown in FIG. 1, a mobile communication terminal such as a smartphone can also be connected via a base station of a mobile phone network. Although only one outside telephone terminal 7(1) is shown in FIG. 1, in reality, many outside telephone terminals such as outside telephone terminals 7(2), 7(3), etc. are connected. The outside telephone terminals 7(1), 7(2), 7(3), etc. may be connected to the wide area network 6 like a fixed telephone terminal located in a home, or may be connected via another telephone control device and used as part of a business phone system.
また、図1に示すように、広域ネットワーク6には、情報提供サーバ8(1)が接続されている。図1において、情報提供サーバ8(1)は、1台しか示していないが、実際には、情報提供サーバ8(2)、8(3)、…というように、多数のものが接続されている。情報提供サーバ8(1)等は、例えば、電車の乗り換え情報を提供するもの、過去、現在の天気情報(履歴)や今後の天気予報を提供するもの、過去のニュース情報を提供するものなど、種々の情報を提供するサーバ装置である。 As shown in FIG. 1, an information providing server 8(1) is connected to the wide area network 6. Although only one information providing server 8(1) is shown in FIG. 1, in reality, many information providing servers are connected, such as information providing servers 8(2), 8(3), .... Information providing servers 8(1) and the like are server devices that provide various types of information, such as train transfer information, past and current weather information (history) and future weather forecasts, and past news information.
図1に示した通話支援システムの電話制御装置1A、1B、1Cは、内線と外線との間の通話回線の接続や内線内の通話回線の接続を制御するだけではない。この実施の形態の電話制御装置1A、1B、1Cは、双方の話者からの通話音声を解析し、(1)事後訂正(あいまいな発言部分の訂正)、(2)事前補足(不明発言部分の補足)、(3)事前防止(不適切発言部分の上書き)といった新たな機能を備える。もちろん、1つの電話制御装置が、(1)~(3)として示した3つの機能の全部を備えることも可能である。 The telephone control devices 1A, 1B, and 1C of the call support system shown in FIG. 1 do not just control the connection of call lines between internal and external lines and the connection of call lines within an internal line. The telephone control devices 1A, 1B, and 1C of this embodiment analyze the call voices from both speakers and have new functions such as (1) post-correction (correction of ambiguous utterances), (2) advance supplementation (supplementation of unclear utterances), and (3) advance prevention (overwriting of inappropriate utterances). Of course, it is also possible for one telephone control device to have all three functions shown as (1) to (3).
しかし、以下においては、説明を簡単にするため、電話制御装置1A、1B、1Cのそれぞれが、上記の(1)~(3)の内の異なる機能を備えるものとして説明する。すなわち、第1の実施の形態の電話制御装置1Aは、(1)事後訂正(あいまいな発言部分の訂正)機能を備えるものである。第2の実施の形態の電話制御装置1Bは、(2)事前補足(不明発言部分の補足)機能を備えるものである。第3の実施の形態の電話制御装置1Cは、(3)事前防止(不適切発言部分の上書き)機能を備えるものである。 However, in the following, for simplicity, telephone control devices 1A, 1B, and 1C will be described as each having a different function among the above (1) to (3). That is, telephone control device 1A of the first embodiment has a (1) post-correction function (correction of ambiguous remarks). Telephone control device 1B of the second embodiment has a (2) advance supplementation function (supplementation of unclear remarks). Telephone control device 1C of the third embodiment has a (3) advance prevention function (overwriting inappropriate remarks).
また、図1に示す電話端末3(1)、3(2)、3(3)、…のそれぞれは、基本的な構成は同様のものであるため、以下の説明においては、特に区別して示す場合を除き、電話端末3(1)、3(2)、3(3)、…のそれぞれを電話端末3と総称する。同様に、外線電話端末7(1)、7(2)、7(3)、…のそれぞれについても、基本的な構成は同様のものであるため、以下の説明においては、特に区別して示す場合を除き、外線電話端末7(1)、7(2)、7(3)、…のそれぞれを外線電話端末7と総称する。
In addition, the telephone terminals 3(1), 3(2), 3(3), ... shown in FIG. 1 have the same basic configuration, and therefore in the following explanation, unless otherwise specified, telephone terminals 3(1), 3(2), 3(3), ... will be collectively referred to as
図1に示した通話支援システムにおいては、上述もしたように、電話端末と外線電話端末7との間の通話(内線と外線との間の通話)も電話端末3間の通話(内線内の通話)も可能である。しかし、以下においては、説明を簡単にするため、電話端末3と外線電話端末7との間に通話回線が接続されて、通話を行う場合(内線と外線との間で通話を行う場合)を例にして説明する。以下、第1、第2、第3の実施の形態の電話制御装置1A、1B、1Cのそれぞれについて具体的に説明する。
As described above, in the call support system shown in FIG. 1, calls between telephone terminals and external telephone terminals 7 (calls between internal and external lines) and calls between telephone terminals 3 (calls within an internal line) are possible. However, for simplicity of explanation, the following will be described using an example in which a call line is connected between
[第1の実施の形態]
<第1の実施の形態の電話制御装置1Aの構成例>
第1の実施の形態の電話制御装置1Aは、電話回線を接続して通話を行う双方の話者からの通話音声を解析して、事後訂正(あいまいな発言部分の訂正)を行う機能を備えるものである。図2は、この発明による通話支援装置の第1の実施の形態が適用された電話制御装置1Aの構成例を説明するためのブロック図である。
[First embodiment]
<Configuration Example of Telephone Control Device 1A of First Embodiment>
The telephone control device 1A of the first embodiment has a function of analyzing the voices of both speakers who are connected to a telephone line and making post-correction (correction of ambiguous utterances). Fig. 2 is a block diagram for explaining a configuration example of the telephone control device 1A to which the first embodiment of the communication support device according to the present invention is applied.
図2において、接続端101Tは、外線電話網61への接続端部を構成し、電話網I/F(Interface)101は、外線電話網61を通じての通信処理を行う部分である。すなわち、電話網I/F101は、外線電話網61を介して送信されて来る自機宛ての信号を、自機において処理可能な形式の信号に変換してこれを取り込む。また、電話網I/F101は、自機から目的とする相手先に送信する信号を、送信用の形式の信号に変換してこれを外線電話網61に送出して相手先に送信する。
In FIG. 2,
制御部102は、図示しないがCPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、不揮発性メモリなどを備えたマイクロプロセッサであり、電話制御装置1Aの各部を制御する。記憶装置103は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)といった、記録媒体とそのドライバとからなる装置部であり、種々のデータの記録媒体への記録、読み出し、変更、削除などを行う。また、記憶装置103は、必要となるデータやプログラムを記憶保持する他、種々の処理において生じる中間データを一時記憶する作業領域としても用いられる。
The
端末情報ファイル104は、HDDやSSDなどの記録装置部に作成され、自機に接続された(収容された)電話端末3の内線番号をはじめとする電話端末3に関する種々の情報を記憶保持すると共に、電話端末3の現在の状態を示す情報についても記憶保持する。この端末情報ファイル104に記憶保持された情報を用いて、電話端末3についての呼制御が行われる。
The terminal information file 104 is created in a recording device such as an HDD or SSD, and stores and holds various information about the
あいまい発言辞書105Aは、HDDやSSDなどの記録装置部に作成され、通話回線を接続して通話を行う双方の話者の通話音声における、あいまいな発言部分を検出するための種々の辞書データを保持する。辞書データの一例を挙げれば、例えば、「たぶん」、「~と思う」、「記憶が正しければ」、「おそらく」などのあいまいな表現や、数字を含む「〇〇分」、[××時間]、「△△円」といった表現などである。数字を含む表現を含めているのは、当該数字部分が正しいとは限らないからである。
The
検索先判定辞書106もまた、HDDやSSDなどの記録装置部に作成されるものである。検索先判定辞書106は、あいまいな発言部分について、正確な内容を検索するために、内部情報サーバ5(1)、…等の記憶情報を検索するのか、IP網62上の情報提供サーバ8(1)、…等の記憶情報を検索するのかを判定するための辞書データを保持する。辞書データは、簡単には、「検索用キーワード:内部」、「検索キーワード:外部」といった検索キーワードと検索先が内部か外部かを示す情報とが対になったものである。
The search
検索先判定辞書106の辞書データの一例を挙げれば、例えば、「製品番号1234:内部」、「営業担当者:内部」、「〇〇駅から□□駅まで:外部」や「〇〇月△△日の天気:外部」といったものになる。ここで、「内部」は、LAN4に接続された内部情報サーバ5(1)、…を意味し、「外部」は、IP網62上の情報提供サーバ8(1)、…を意味する。検索先判定辞書106を用いて、検索先を絞り込むことで、あいまいな発言部分についての正確な内容を、適切かつ迅速に検索することができる。
Examples of dictionary data in the search
接続端107Tは、内線電話網2への接続端部を構成する。内線I/F(Interface)107は、電話制御装置1Aと、内線電話網2を通じて電話制御装置1Aに収容される電話端末3のそれぞれとの間の通信を可能にする。従って、電話端末3からの信号は、接続I/F107において自機において処理可能な形式の信号に変換されて取り込まれる。また、電話制御装置1Aから電話端末3への信号は、接続I/F107において送信用の形式の信号に変換されて、電話端末3に送信される。従って、内線電話網2を通じた通信は、接続端107T及び接続I/F107を通じて行うことになる。
The
接続端108Tは、LAN4への接続端部を構成する。LANI/F(Interface)108は、電話制御装置1Aと、LAN4を通じて内部情報サーバ5(1)、…との間の通信を可能にする。従って、電話制御装置1Aから内部情報サーバ5(1)、…への信号は、LANI/F108において送信用の形式の信号に変換されて、内部情報サーバ5(1)、…に送信される。また、内部情報サーバ5(1)、…からの信号は、LANI/F108において自機において処理可能な形式の信号に変換されて取り込まれる。従って、LAN4を通じた通信は、接続端108T及びLANI/F108を通じて行うことになる。
The
呼制御部109は、制御部102の制御の下、端末情報ファイル104の管理情報を用い、電話端末3の発信、着信、応答、切断等の呼制御を行う。呼制御部109は、図2に示すように、発信制御部109Sと、着信制御部109Rとを備えている。呼制御部109では、配下の電話端末3から発信(発信要求)を受け付けると、発信制御部109Sが機能して、指示された相手先を呼び出すようにし、当該相手先が応答してきたら電話回線を接続して通話を可能にする。
Under the control of the
また、呼制御部109では、自機宛ての着信(相手先からの発信通知)を受け付けた場合には、着信制御部109Rが機能して、配下の電話端末3に着信通知を行う。これにより、電話端末3では、放音部(リンガ)より呼び出し音が放音され、着信の発生が通知される。電話端末3のいずれかにおいて、着信に応答する操作(オフフック操作)がなされると、着信制御部109Rは、これを検知して、着信に応答し、オフフックがされた電話端末3との間に通話回線を接続して通話を可能にする。
When the
この後、接続した電話回線を保留にしたり、転送したり、解放したりする処理は、配下の電話端末3からの要求に応じて、制御部102の制御の下に処理される。なお、制御部102は、配下の電話端末3が備えるLED(Light Emitting Diode)の点灯/消灯制御やディスプレイへの表示のための制御なども行う。
After this, the processes of putting the connected telephone line on hold, transferring, and releasing are processed under the control of the
接続端110Tは、IP網62への接続端部を構成する。通信I/F(Interface)110は、IP網62を通じての通信処理を行う部分である。これにより、電話制御装置1Aは、通信I/F110及び接続端110Tを通じてIP網62上の情報提供サーバ8(1)、…等にアクセスし、検索を行うようにして必要な情報の提供を受けることができる。
The
会話支援処理部120Aが、電話回線を接続して通話を行う双方の話者からの通話音声を解析し、事後訂正(あいまいな発言部分の訂正)を行う機能を実現する部分となる。会話支援処理部120Aは、図2に示すように、音声認識部1211と、あいまい発言検出部1212と、キーワード抽出部1213とからなる音声処理部121Aを備える。更に、会話支援処理部120Aは、検索先判定部122と、検索実行部123と、正誤判定部124と、訂正文作成部125と、訂正提供部126とを備える。
The conversation support processing unit 120A is the part that realizes the function of analyzing the voices of both speakers who are connected via telephone lines and performing post-correction (correction of ambiguous utterances). As shown in FIG. 2, the conversation support processing unit 120A has a voice processing unit 121A consisting of a
音声認識部1211は、通話回線を接続して、通話を行う双方の話者からのそれぞれの通話音声をテキストデータに変換する処理を行う。この場合、音声認識部1211は、電話端末3からの通話音声と外線電話端末7からの通話音声とのそれぞれについて、区別できるようにしてテキストデータに変換する。あいまい発言検出部1212は、それぞれの話者からの通話音声から変換されたそれぞれのテキストデータを、文節や単語に区切るようにして解析し、あいまい発言辞書105Aを参照して、あいまい発言部分を検出する。
The
キーワード抽出部1213は、音声認識部1211で変換されたテキストデータから、あいまい発言検出部1212で検出されたあいまい発言部分についての正確な内容を検索するための検索用キーワードを抽出する。検索先判定部122は、キーワード抽出部1213で抽出された検索用キーワードを用いて検索先判定辞書106を参照し、内部情報サーバ5(1)、…を検索先とするか、IP網62上の情報提供サーバ8(1)、…を検索先とするかを判別する。
The
検索実行部123は、検索先判定部122で判定された検索先に蓄積されている情報を検索対象として、キーワード抽出部1213で抽出された検索用キーワードを用いて検索を実行する処理を行う。この場合、検索先が内部情報サーバ5(1)、…である場合には、所定の検索プログラムを実行し、内部情報サーバ5(1)、…に蓄積されている情報の中から検索用キーワードに合致する情報(検索結果)を得る。また、検索先がIP網62上の情報提供サーバ8(1)、…である場合には、検索実行部123は、所定のブラウザ(Webページ閲覧ソフト)を実行し、検索用キーワードを用いて検索を実行して、当該検索キーワードに合致する情報(検索結果)を得る。
The
正誤判定部124は、あいまい発言検出部1212で検出されたあいまい発言部分の内容と、検索実行部123で取得された検索結果とを比較して、あいまい発言部分の内容が正しいか誤りかの正誤判定を行う。正誤判定部124において、あいまい発言検出部1212で検出されたあいまい発言部分の内容が正しいと判定された場合には、当該あいまい発言部分に対する処理は終了する。しかし、正誤判定部124において、あいまい発言検出部1212で検出されたあいまい発言部分の内容が誤りであると判定された場合には、訂正文作成部125が機能する。
The
訂正文作成部125は、検索実行部123の検索の結果得られた検索結果と、検索用キーワードなどの情報を考慮して、検出された当該あいまい発言部分の内容を訂正するための訂正文を作成する。訂正提供部126は、訂正文作成部125で作成された訂正文(テキストデータ)を音声情報に変換し、通話回線を接続している話者に対して、当該通話回線を通じて提供する。すなわち、発信元の話者と着信先の話者との双方に、訂正文を音声情報として提供できる。これにより、発信元の話者と着信先の話者との双方に、誤った発言部分について同時に訂正をすることができる。
The correction
なお、上述もしたように、音声処理部121Aは、通話回線を接続して、通話を行う双方の話者からのそれぞれの通話音声を処理対象とし、処理対象についてどちらの話者の通話音声なのかを区別可能に処理する。簡単には、電話端末3と外線電話端末7との間に通信回線が接続された場合、音声処理部121Aは、電話端末3からの通話音声なのか、外線電話端末7からの通話音声なのかを区別可能にして処理する。このため、訂正文を作成したあいまい発言部分は、電話端末3からの通話音声の部分なのか、外線電話端末7からの通話音声の部分なのかの区別はできている。
As described above, the voice processing unit 121A connects a telephone line and processes the voices of both speakers who are engaged in a call, and processes the voices so that it is possible to distinguish which speaker is the subject of the processing. Simply put, when a communication line is connected between
そこで、訂正提供部126は、訂正文作成部125で作成された訂正文(テキストデータ)を音声情報に変換し、誤った発言をした話者だけに提供することもできる。この場合には、誤った発言を行った話者が、自身の音声により、自身の発言の誤りを訂正し、他の話者に対して提供できる。この場合には、誤った発言を行った話者自身も納得感を得られ、他方の話者も訂正を容易に受け入れることができるなど、よりソフトな対応とすることができる。
The
<第1の実施の形態の通話支援システムでの処理>
図3は、第1の実施の形態の電話制御装置1Aが用いられて構成された通話支援システムでの処理を説明するためのシーケンス図である。上述もしたように、電話端末3から外線電話端末7に電話を掛けることにより、あるいは、外線電話端末7から電話端末3に電話を掛けることにより、電話端末3と外線電話端末7との間に通話回線が接続され、通話が開始されているものとする(ステップS1)。
<Processing in the communication support system according to the first embodiment>
3 is a sequence diagram for explaining the process of the call support system configured using the telephone control device 1A of the first embodiment. As described above, it is assumed that a call line is connected between the
図1を用いて説明したように、電話端末3は、電話制御装置1Aの配下の電話端末であるため、電話端末3と外線電話端末7との間の通話音声は、全て電話制御装置1Aを介して送受される。すなわち、電話制御装置1Aは、電話端末3と外線電話端末7との間の全ての通話音声を中継する。このため、電話制御装置1Aでは、制御部102の制御により、通話音声の転送と音声認識が開始される(ステップS2)。
As explained using FIG. 1,
具体的に、ステップS2では、接続端101T及び電話網I/F101を通じて受信した外線電話端末7からの通話音声を、内線I/F107及び接続端107Tを通じて電話端末3に転送(送信)する。また、ステップS2では、接続端107T及び内線I/F107を通じて受信した電話端末3からの通話音声を、電話網I/F101及び接続端101Tを通じて外線電話端末7に転送(送信)する。更に、ステップS2では、制御部102の制御の下、音声処理部121Aの音声認識部1211が機能して、電話端末3からの通話音声と、外線電話端末7からの通話音声のそれぞれについて、テキストデータに変換する処理を開始する。
Specifically, in step S2, the call voice from the
同時に、制御部102は、音声処理部121Aのあいまい発言検出部1212と、キーワード抽出部1213を制御し、あいまい発言部分の検出と、検索用キーワードの抽出とを行う(ステップS3)。ステップS3において、あいまい発言検出部1212は、音声認識部1211からのテキストデータの提供を受けて、文節や単語を検出し、あいまい発言辞書105Aを参照して、あいまい発言部分を検出する。あいまい発言部分は、上述もしたように、例えば、「たぶん」、「~と思う」、「記憶が正しければ」、「おそらく」などのあいまいな表現を含む部分や、「〇〇分」、[××時間]、「△△円」といった数字を含む部分などである。
At the same time, the
また、ステップS3において、キーワード抽出部1213は、例えば、「山の日の/次の祝日は/たぶん/秋分の日/だと思う。」といった通話音声に応じたテキストデータが存在したとする。この場合、「たぶん/秋分の日/だと思う。」といった部分があいまい発言部分として抽出される。このため、キーワード抽出部1213は、当該あいまい部分の直前の部分も考慮し、「秋分の日」と等価(イコール)となる部分である「山の日の次の祝日は」という文言部分を、検索用キーワードとして抽出する。
In step S3, the
また、ステップS3において、キーワード抽出部1213は、例えば、「町田から橋本までの所要時間は、5分です。」といった通話音声に応じたテキストデータが存在したとする。この場合、「5分です。」といった部分があいまい発言部分として抽出される。このため、キーワード抽出部1213は、当該あいまい部分の直前の部分も考慮し、「5分」と等価(イコール)となる部分である「町田から橋本までの所要時間は」という文言部分を、検索用キーワードとして抽出する。
In step S3, the
次に、制御部102の制御の下、検索先判定部122が機能し、キーワード抽出部1213で抽出された検索用キーワードに基づいて、検索先判定辞書106を参照し、検索先を判定する処理を行う(ステップS4)。具体的に、検索先判定部122は、LAN4上の内部情報サーバ5(1)、…を検索先とするか、IP網62上の情報提供サーバ8(1)、…を検索先とするかを判別する。
Next, under the control of the
例えば、上述した「山の日の次の祝日は」という検索用キーワードの場合、「山の日」や「祝日」といった単語は、一般的な単語であり、内部(社内)で特に用いられる文言ではないため、IP網62上の情報提供サーバ8(1)、…が検索先であると判定する。これに対して、例えば、検索キーワードに含まれる単語が、「製品番号1234」や「株式会社○○○様の営業担当者」のように、内部(社内)で特に用いられる文言である場合には、LAN4上の内部情報サーバ5(1)、…が検索先であると判定する。
For example, in the case of the above-mentioned search keyword "What is the next national holiday after Mountain Day?", words such as "Mountain Day" and "national holiday" are general words and are not phrases that are particularly used internally (within a company), so it is determined that the information providing server 8 (1), ... on the IP network 62 is the search destination. In contrast, if the words included in the search keyword are phrases that are particularly used internally (within a company), such as "product number 1234" or "sales representative of XXX Co., Ltd.", it is determined that the internal information server 5 (1), ... on the
また、検索用キーワードが「町田から橋本までの所要時間」の場合には、IP網62上の所定の鉄道会社のWebページを検索先とするなど、検索用キーワードに基づいて、検索先(問い合わせ先)となるWebページ自体を特定することも可能である。同様に、検索用キーワードが「製品番号1234」や「株式会社○○○様の営業担当者」などの得意先を示す情報の場合には、LAN4上の製品情報DB(Data Base)や顧客情報DBなどのように、検索先となるデータベース自体を特定することも可能である。
In addition, if the search keyword is "travel time from Machida to Hashimoto," it is possible to specify the web page itself to be searched (inquiry destination) based on the search keyword, such as searching a specific railway company's web page on IP network 62. Similarly, if the search keyword is information indicating a customer, such as "product number 1234" or "sales representative of XXX Co., Ltd.", it is also possible to specify the database itself to be searched, such as a product information DB (Data Base) or customer information DB on
次に、制御部102の制御の下、検索実行部123が機能して、検索先判定部122で判定された検索先に対して、キーワード抽出部1213で抽出された検索用キーワードを用いて検索を実行する(ステップS5)。検索実行部123は、検索先がIP網62上の情報提供サーバ8(1)、…である場合には、所定のブラウザ(Webページ閲覧ソフト)を用いて、検索用キーワードを入力するようにして、IP網62上の情報提供サーバ8(1)、…を検索先として検索を行う。これにより、具体例を示すと、例えば、「山の日の次の祝日は」という検索用キーワードを用いた場合には、「敬老の日」という検索結果が得られる。また、「町田から橋本までの所要時間は」という検索用キーワードが用いられた場合には、「快速11分、各停14分」という検索結果が得られる。
Next, under the control of the
また、検索実行部123は、検索先がLAN4上の内部情報サーバ5(1)、…である場合には、所定の検索プログラムを実行し、検索用キーワードを入力するようにして、LAN4上の内部情報サーバ5(1)、…を検索先として検索を行う。これにより、具体例を示すと、例えば、「製品番号1234」という検索用キーワードを用いた場合には、製品情報DBが参照されて、製品番号1234の仕様などの詳細情報が得られる。また、「株式会社〇〇様の営業担当者」という検索用キーワードが用いられた場合には、顧客情報先DBが参照され、「営業1課 鈴木太郎」のように、「株式会社〇〇様」の営業担当者の氏名が得られる。
Furthermore, when the search destination is the internal information server 5(1), ... on the
次に、制御部102の制御の下、正誤判定部124が機能し、あいまい発言検出部1212で検出されたあいまい発言部分と検索実行部123で取得された検索結果とを比較して、あいまい発言部分の内容が正しいか誤りかの正誤判定を行う(ステップS6)。具体的には、あいまい発言部分が「たぶん/秋分の日/だと思う。」である場合の検索結果は、上述したように「敬老の日」であるので、あいまい発言部分の誤りであると判定される。また、あいまい発言部分が「5分」である場合の検索結果は、上述したように「快速11分、各停14分」であるので、誤りであると判定できる。
Next, under the control of the
ステップS6で、誤りではないと判定された場合には、事後訂正の必要はないので、当該あいまい発言部分についての処理は終了し、次のあいまい発言部分の処理に移ることになる。ステップS6判定処理において、誤りであると判定されたとする。この場合、制御部102の制御の下、訂正文作成部125が機能して、訂正文を作成する処理を行う(ステップS7)。ステップS7において、訂正文作成部125は、検索実行部123の検索結果と、キーワード抽出部1213で抽出された検索用キーワードなどの情報を考慮して、検出された当該あいまい発言部分の内容を訂正するための訂正文を作成する。
If it is determined in step S6 that the ambiguous utterance is not an error, then no subsequent correction is necessary, and the process for that ambiguous utterance is terminated, and the process moves on to the next ambiguous utterance. Assume that it is determined to be an error in the step S6 determination process. In this case, under the control of the
例えば、上述した前者の例の場合には、「山の日の次の祝日は、敬老の日です。」という訂正文を作成することになる。また、上述した後者の例の場合には、「町田から橋本までの所要時間は、快速11分、各停14分です。」といった訂正文を作成することになる。この後、制御部102の制御の下、訂正提供部126が機能し、訂正文作成部125で作成された訂正文(テキストデータ)を音声データに変換し、通話回線を接続している話者に対して、提供するする処理を行う(ステップS8)。
For example, in the case of the former example described above, a correction sentence such as "The next national holiday after Mountain Day is Respect for the Aged Day" would be created. In the case of the latter example described above, a correction sentence such as "The travel time from Machida to Hashimoto is 11 minutes by rapid train and 14 minutes by local train" would be created. Thereafter, under the control of the
この場合、訂正文に応じた音声データ(訂正音声データ)は、例えば、双方の話者の通話音声が途切れたことを例えば制御部102において検出した場合に、訂正提供部126が双方の話者に対して提供する(ステップS9、ステップS10)。訂正文に応じた音声データの提供が通話を阻害することなく、訂正文に応じた音声データを適切に提供するためである。これにより、ステップS3で検出されたあいまいな発言部分について、当該発言部分が誤りあった場合には、電話制御装置1Aの機能によって自動的に話者双方に対して訂正を行うことができる。
In this case, the voice data corresponding to the correction sentence (corrected voice data) is provided to both speakers by the
この後、制御部102は、訂正提供部126からの訂正文の音声データの送出が終了すると、当該訂正文の音声データを消去して、通常の通話に戻るようにする(ステップS11)。これにより、通話音声の送受信が中断されることなく継続され(ステップS12)、上述したステップS2からの処理が繰り返すようにされる。
After this, when the
このようにして、第1の実施の形態の電話制御装置1Aでは、電話回線を接続して通話を行う双方の話者からの通話音声を解析し、事後訂正(あいまいな発言部分の訂正)を行うことができる。これにより、間違いを間違いのままとすることが無く、正しい情報に自動的に訂正することができるので、正確でない発言をしてしまい、相手に不都合を生じさせるといったことを防止することができる。従って、不正確な発言により、不利益が生じてしまうようなことを防止できる。 In this way, the telephone control device 1A of the first embodiment can analyze the voices of both speakers who are connected over a telephone line and make post-correction (correction of ambiguous statements). This allows mistakes to be automatically corrected to the correct information without being left as errors, preventing inaccurate statements from being made and causing inconvenience to the other party. This prevents disadvantages from occurring due to inaccurate statements.
[第2の実施の形態]
<第2の実施の形態の電話制御装置1Bの構成例>
第2の実施の形態の電話制御装置1Bは、電話回線を接続して通話を行う双方の話者からの通話音声を解析して、事前補足(不明発言部分の補足)を行う機能を備えるものである。図4は、この発明による通話支援装置の第2の実施の形態が適用された電話制御装置1Bの構成例を説明するためのブロック図である。図4に示す電話制御装置1Bにおいて、図2を用いて説明した第1の実施の形態の電話制御装置1Aと同様に構成される部分には、同じ参照符号を付し、当該部分の詳細な説明については重複するので省略する。
[Second embodiment]
<Configuration example of telephone control device 1B according to the second embodiment>
The telephone control device 1B of the second embodiment has a function of analyzing the voices of both speakers who are connected to a telephone line and performing advance supplementation (supplementation of unclear utterances). Fig. 4 is a block diagram for explaining a configuration example of the telephone control device 1B to which the second embodiment of the communication support device of the present invention is applied. In the telephone control device 1B shown in Fig. 4, parts configured similarly to the telephone control device 1A of the first embodiment explained using Fig. 2 are given the same reference numerals, and detailed explanations of these parts are omitted to avoid duplication.
図4に示すように、第2の実施の形態の電話制御装置1Bは、不明状況辞書105Bを備える。不明状況辞書105Bは、HDDやSSDなどの記録装置部に作成され、通話回線を接続して通話を行う双方の話者の通話音声における、不明な発言部分を検出するための種々の辞書データを保持する。辞書データの一例を挙げれば、例えば、「えーと、えーと、…」、「えー、……」、「~は、何でしたっけ。」、「~は、何分でしたっけ。」といった、言葉が出てこない場合の表現や、相手に質問する表現などである。
As shown in FIG. 4, the telephone control device 1B of the second embodiment includes an
会話支援処理部120Bが、電話回線を接続して通話を行う双方の話者からの通話音声を解析し、事前補足(不明発言部分の補足)を行う機能を実現する部分となる。会話支援処理部120Bは、図2に示すように、音声認識部1211と、不明発言検出部1214と、キーワード抽出部1215とからなる音声処理部121Bを備える。更に、会話支援処理部120Bは、検索先判定部122と、検索実行部123と、検索成否判定部127と、補足文作成部128と、補足提供部129とを備える。
The conversation support processing unit 120B is the unit that realizes the function of analyzing the voices of both speakers who are connected via telephone lines and performing advance supplementation (supplementation of unclear utterances). As shown in FIG. 2, the conversation support processing unit 120B includes a voice processing unit 121B that is made up of a
音声認識部1211は、上述もしたように、通話回線を接続して、通話を行う双方の話者からのそれぞれの通話音声をテキストデータに変換する処理を行う。この場合、音声認識部1211は、電話端末3からの通話音声と外線電話端末7からの通話音声とのそれぞれについて、区別できるようにしてテキストデータに変換する。不明発言検出部1214は、それぞれの話者からの通話音声から変換されたそれぞれのテキストデータを、文節や単語に区切るようにして解析し、不明状況辞書105Bを参照して、不明発言部分を検出する。また、不明発言検出部1214は、例えば、「製品番号は、・・・・」のように、通話音声(発言)が、途中で途切れ、その後に所定時間以上(例えば2秒以上)の無音が生じた場合には、当該部分を不明発言部分として検出する。
As described above, the
キーワード抽出部1215は、音声認識部1211で変換されたテキストデータから、不明発言検出部1214で検出された不明発言部分についての内容を検索するための検索用キーワードを抽出する。検索先判定部122は、キーワード抽出部1215で抽出された検索用キーワードを用いて検索先判定辞書106を参照し、内部情報サーバ5(1)、…を検索先とするか、IP網62上の情報提供サーバ8(1)、…を検索先とするかを判別する。
The
検索実行部123は、検索先判定部122で判定された検索先に蓄積されている情報を検索対象として、キーワード抽出部1215で抽出された検索用キーワードを用いて検索を実行する処理を行う。この場合、検索先が内部情報サーバ5(1)、…である場合には、所定の検索プログラムを実行し、内部情報サーバ5(1)、…に蓄積されている情報の中から検索用キーワードに合致する情報(検索結果)を得る。また、検索先がIP網62上の情報提供サーバ8(1)、…である場合には、検索実行部123は、所定のブラウザ(Webページ閲覧ソフト)を実行し、検索用キーワードを用いて検索を実行し、当該検索キーワードに合致する情報(検索結果)を得る。
The
検索成否判定部127は、検索実行部123での検索結果に基づいて、不明発言部分に対応する解答が検索できたか否かの判定を行う。検索成否判定部127での判定結果に応じて、補足文作成部128が機能する。すなわち、補足文作成部128は、検索成否判定部127での判定結果が、不明発言部分に対応する解答が検索できなかったことを示すものである場合には、不明部分の解答が得られなかった旨を通知する補足文を作成する。また、補足文作成部128は、検索成否判定部127での判定結果が、不明発言部分に対応する解答が検索できたことを示すものである場合には、検索実行部123での検索結果を含む補足文を作成する。
The search success/
補足提供部129は、補足文作成部128で作成された補足文(テキストデータ)を音声情報に変換し、通話回線を接続している話者に対して、当該通話回線を通じて提供する。すなわち、発信元の話者と着信先の話者との双方に、補足文を音声情報として提供できる。これにより、発信元の話者と着信先の話者との双方に、不明発言部分について同時に補足をすることができる。
The supplementary
なお、上述もしたように、音声処理部121Bは、通話回線を接続して、通話を行う双方の話者からのそれぞれの通話音声を処理対象とし、処理対象についてどちらの話者の通話音声なのかを区別可能に処理する。簡単には、例えば、電話端末3と外線電話端末7との間に通信回線が接続された場合、音声処理部121Bは、電話端末3からの通話音声なのか、外線電話端末7からの通話音声なのかを区別可能にして処理する。このため、補足文を作成した不明発言部分は、電話端末3からの通話音声の部分なのか、外線電話端末7からの通話音声の部分なのかの区別はできている。
As described above, the voice processing unit 121B connects a telephone line and processes the voices of both speakers in a call, and processes the voices in a manner that makes it possible to distinguish which speaker's voice is being processed. Simply put, for example, when a communication line is connected between
そこで、補足提供部129は、補足文作成部128で作成された補足文(テキストデータ)を音声情報に変換し、不明発言をした話者だけに提供することもできる。この場合には、不明発言を行った話者が、自身の音声により、自身の発言における不明部分を補足し、他の話者に対して提供できる。この場合には、不明発言を行った話者自身も納得感を得られ、他方の話者も補足を容易に受け入れることができるなど、よりソフトな対応とすることができる。
The
<第2の実施の形態の通話支援システムでの処理>
図5は、第2の実施の形態の電話制御装置1Bが用いられて構成された通話支援システムでの処理を説明するためのシーケンス図である。図5においても、電話端末3から外線電話端末7に電話を掛けることにより、あるいは、外線電話端末7から電話端末3に電話を掛けることにより、電話端末3と外線電話端末7との間に通話回線が接続され、通話が開始されているものとする(ステップS21)。
<Processing in the communication support system according to the second embodiment>
Fig. 5 is a sequence diagram for explaining the process of the call support system configured using the telephone control device 1B of the second embodiment. In Fig. 5, it is assumed that a call line is connected between the
図1を用いて説明したように、電話端末3は、電話制御装置1Bの配下の電話端末であるため、電話端末3と外線電話端末7との間の通話音声は、全て電話制御装置1Bを介して送受される。すなわち、電話制御装置1Bは、電話端末3と外線電話端末7との間の全ての通話音声を中継する。このため、電話制御装置1Bでは、制御部102の制御により、通話音声の転送と音声認識が開始される(ステップS22)。このように、図5のステップS21の処理は、図3に示したステップS1の処理と同様の処理であり、図5のステップS22の処理は、図3に示したステップS2の処理と同様の処理である。
As explained using FIG. 1,
同時に、制御部102は、音声処理部121Bの不明発言検出部1214と、キーワード抽出部1215を制御し、不明発言部分の検出と、検索用キーワードの抽出とを行う(ステップS23)。ステップS23において、不明発言検出部1214は、音声認識部1211からのテキストデータの提供を受けて、文節や単語を検出し、不明状況辞書105Bを参照して、不明発言部分を検出する。不明発言部分は、上述もしたように、例えば、「えーと、えーと、…」、「~は、何でしたっけ。」、「~は、何分でしたっけ。」といった、言葉が出てこない場合の表現を含む部分や、相手に質問する表現を含む部分である。更には、通話音声(発言)が、途中で途切れ、その後に所定時間以上(例えば2秒以上)の無音が生じた部分なども、不明発言部分として検出する。
At the same time, the
例えば、「〇〇様に先月納品したアダプタの型番は、えーと、えーと、…」といった通話音声があった場合に、「えーと、えーと、…」という部分が不明発言部分として不明発言検出部1214により抽出されたとする。この場合、キーワード抽出部1215は、当該不明発言部分の直前の部分も考慮し、「〇〇様」、「先月納品」、「アダプタの型番」といった検索用キーワードを抽出する。また、「羽田から福岡までの飛行時間は、何分だっけ。」といった通話音声があった場合に、「何分だっけ」という部分が不明発言部分として不明発言検出部1214により検出されたとする。この場合、キーワード抽出部1215は、当該不明発言部分の直前の部分も考慮し、「羽田から福岡までの飛行時間」といった検索用キーワードを抽出する。
For example, in a case where a voice message includes the following statement: "The model number of the adapter delivered to Mr./Ms. XX last month is, um, um, ...", the portion "um, um, ..." is extracted by the unknown
次に、制御部102の制御の下、検索先判定部122が機能し、キーワード抽出部1213で抽出された検索用キーワードに基づいて、検索先判定辞書106を参照し、検索先を判定する処理を行う(ステップS24)。ステップS24では、検索先判定部122が、キーワード抽出部1213で抽出された検索用キーワードに基づいて、検索先判定辞書106を参照し、検索先を内部情報サーバ5(1)、…にするか、IP網62上の情報提供サーバ8(1)、…にするかを判別する。
Next, under the control of the
例えば、検索キーワードに含まれる単語が、上述した「〇〇様」、「先月納品」、「アダプタの型番」のように、内部(社内)で特に用いられる文言である場合には、LAN4上の内部情報サーバ5(1)、…が検索先であると判定する。これに対して、上述した「羽田から福岡までの飛行時間」という検索用キーワードの場合、「羽田」、「福岡」、「飛行時間」といった単語は、一般的な単語であり、内部(社内)で特に用いられる文言ではない。このため、この場合には、IP網62上の情報提供サーバ8(1)、…が検索先である判定する。
For example, if the words included in the search keyword are phrases that are used especially internally (within a company), such as the above-mentioned "Mr./Ms. XX," "Delivered last month," and "Adapter model number," then it is determined that the internal information server 5 (1), ... on the
また、検索用キーワードが「○○様」や「アダプタの型番」などの得意先を示す情報の場合には、LAN4上の顧客情報DBや製品情報DBなどのように、検索先となるデータベース自体を特定することも可能である。同様に、検索用キーワードが「羽田から福岡までの飛行時間」の場合には、IP網62上の所定の航空会社のWebページを検索先とするなど、検索用キーワードに基づいて、検索先(問い合わせ先)となるWebページ自体を特定することも可能である。
In addition, when the search keyword is information indicating a customer, such as "Mr./Ms. XX" or "adapter model number," it is possible to specify the database itself to be searched, such as a customer information DB or product information DB on
次に、制御部102の制御の下、検索実行部123が機能して、検索先判定部122で判定された検索先に対して、キーワード抽出部1215抽出された検索用キーワードを用いて検索を実行する(ステップS25)。検索実行部123は、検索先がIP網62上の情報提供サーバ8(1)、…である場合には、所定のブラウザ(Webページ閲覧ソフト)を用いて、検索用キーワードを入力するようにして、IP網62上の情報提供サーバ8(1)、…を検索先として検索を行う。これにより、具体例を示すと、例えば、「羽田から福岡までの飛行時間」という検索用キーワードを用いた場合には、「約1時間50分」という検索結果が得られる。
Next, under the control of the
また、検索実行部123は、検索先がLAN4上の内部情報サーバ5(1)、…である場合には、所定の検索プログラムを実行し、検索用キーワードを入力するようにして、LAN4上の内部情報サーバ5(1)、…を検索先として検索を行う。これにより、具体例を示すと、例えば、「〇〇様」、「先月納品」、「アダプタの型番」という検索用キーワードが用いられたとする。この場合には、取引情報DBが参照され、得意先である「○○様」に対して、「先月納品」した「アダプタの型番」である、例えば「ADP1234」という検索結果が得られる。
Furthermore, when the search destination is the internal information server 5 (1), ... on the
次に、制御部102の制御の下、検索成否判定部127が機能し、検索実行部123による検索の成否が判定される(ステップS26)。具体的には、検索実行部123により、検索結果が得られたか否かが判定される。次に、制御部102の制御の下、補足文作成部128が機能し、補足文を作成する処理を行う(ステップS27)。ステップS26において、検索成否判定部127が検索結果は得られていない(検索不成功)であると判定した場合、ステップS27において、補足文作成部128は、例えば、「検索できませんでした。」といった補足文を作成する。逆に、ステップS26において、検索成否判定部127が、検索結果が得られた(検索成功)と判定した場合、ステップS27において、補足文作成部128は、検索実行部123の検索処理の結果に基づいて、補足文を作成する。
Next, under the control of the
具体例を示せば、「羽田から福岡までの飛行時間」という検索用キーワードを用いて、「約1時間50分」という検索結果が得られた場合には、「羽田から福岡までの飛行時間は、約1時間50分です。」という補足文を作成する。また、「〇〇様」、「先月納品」、「アダプタの型番」という検索用キーワードが用いて、「ADP1234」という検索結果が得られた場合には、「○○様に先月納品したアダプタの型番は、ADP1234です。」といった補足文を作成する。 To give a specific example, if the search keyword "flight time from Haneda to Fukuoka" is used and the search result is "approximately 1 hour 50 minutes," a supplemental sentence such as "Flight time from Haneda to Fukuoka is approximately 1 hour 50 minutes" is created. Similarly, if the search keywords "Mr./Ms. XX," "Delivered last month," and "Adapter model number" are used and the search result is "ADP1234," a supplemental sentence such as "The model number of the adapter delivered to Mr./Ms. XX last month is ADP1234" is created.
この後、制御部102の制御の下、補足提供部129が機能し、補足文作成部128で作成された補足文(テキストデータ)を音声データに変換し、通話回線を接続している話者に対して提供するする処理を行う(ステップS28)。この場合、例えば、双方の話者の通話音声が途切れたことを例えば制御部102において検出した場合に、補足提供部129が双方の話者に対して提供する(ステップS29、ステップS30)。補足文に応じた音声データの提供が通話を阻害することなく、補足文に応じた音声データを適切に提供するためである。これにより、ステップS23で検出された不明発言部分について、電話制御装置1Bの機能によって自動的に、話者双方に対して当該発言部分を補足する(補う)情報を提供できる。
After this, under the control of the
この後、制御部102は、補足提供部129からの補足文の音声データの送出が終了すると、当該補足文の音声データを消去して、通常の通話に戻るようにする(ステップS31)。ステップS31の処理の後においては、音声処理部121Bが機能して、音声認識部1211が通話音声をテキストデータに変換し、不明発言検出部1214が機能して、提供した補足文についての評価を示す部分を抽出する。例えば、補足文の提供直後に、「そうじゃないでしょう。」、「違いますよね。」、「ちょっと腑に落ちないですね。」といった否定的な文言が抽出された場合には、制御部102は、ステップS25からの処理に戻り、再度検索を行って、別の検索結果を用いて、追加の補足を行うようにする(ステップS32)。
After this, when the transmission of the voice data of the supplementary sentence from the
これに対して、例えば、補足文の提供直後に、「あっ、そうでしたね。」、「なるほど。」、「やっと、すっきりしました。」といった肯定的な文言が抽出された場合には、今回の不明部分についての検索を終了する(ステップS33)。また、補足文の提供直後に、「この件は、後で調べてご連絡します。」、「また、別の機会に」といった補足不要であることを示す文言が抽出された場合にも、今回の不明部分についての検索を終了する(ステップS33)。この後、通話音声の送受信が継続され(ステップS34)、上述したステップS23からの処理が繰り返すようにされる。 In contrast to this, for example, if positive words such as "Ah, that's right," "I see," or "Finally, I feel relieved" are extracted immediately after the supplementary text is provided, the search for the current unclear portion is terminated (step S33). Also, if words indicating that no supplement is necessary such as "I will look into this matter and get back to you later" or "Maybe another time" are extracted immediately after the supplementary text is provided, the search for the current unclear portion is terminated (step S33). After this, the transmission and reception of voice communication continues (step S34), and the process from step S23 described above is repeated.
なお、ステップS32やステップS33においては、図示しないが、例えば、記憶装置103に格納されている「否定的文言辞書」が用いられ、ステップS33においては、図示しないが、例えば、記憶装置103に格納されている「肯定的文言辞書」が用いられる。
Note that in steps S32 and S33, although not shown, for example, a "negative phrase dictionary" stored in the
このようにして、第2の実施の形態の電話制御装置1Bでは、電話回線を接続して通話を行う双方の話者からの通話音声を解析し、事前補足(不明発言部分の補足)を行うことができる。これにより、通話中に不明なことが発信し、話が先に進まないような場合でも、自動的に不明発言部分について、解答が示されるので、話の遅滞を防止でき、スムーズに通話(会話)を行うことができる。 In this way, the telephone control device 1B of the second embodiment can analyze the voices of both speakers who are connected to the telephone line and can perform advance supplementation (supplementation of unclear utterances). As a result, even if something unclear is said during a call and the conversation does not progress, an answer is automatically provided for the unclear utterance, preventing delays in the conversation and allowing the call (conversation) to proceed smoothly.
[第3の実施の形態]
<第3の実施の形態の電話制御装置1Cの構成例>
第3の実施の形態の電話制御装置1Cは、電話回線を接続して通話を行う双方の話者からの通話音声を解析し、事前防止(不適切発言部分の上書き)を行う機能を備えるものである。図6は、この発明による通話支援装置の第3の実施の形態が適用された電話制御装置1Cの構成例を説明するためのブロック図である。図6に示す電話制御装置1Cにおいて、図2を用いて説明した第1の実施の形態の電話制御装置1Aと同様に構成される部分には、同じ参照符号を付し、当該部分の詳細な説明については省略する。
[Third embodiment]
<Configuration Example of Telephone Control Device 1C of Third Embodiment>
The telephone control device 1C of the third embodiment has a function of analyzing the voices of both speakers who are connected to a telephone line and performing preventive measures (overwriting inappropriate remarks). Fig. 6 is a block diagram for explaining a configuration example of the telephone control device 1C to which the third embodiment of the communication support device of the present invention is applied. In the telephone control device 1C shown in Fig. 6, parts configured similarly to the telephone control device 1A of the first embodiment described using Fig. 2 are given the same reference numerals, and detailed explanations of those parts are omitted.
図6に示すように、第3の実施の形態の電話制御装置1Cは、不適切文言辞書105Cを備える。不適切文言辞書105Cは、HDDやSSDなどの記録装置部に作成され、通話回線を接続して通話を行う双方の話者の通話音声における、不適切な発言部分を検出するための種々の辞書データを保持する。不適切文言辞書105Cには、相手を馬鹿にする言葉、差別的な言葉、不穏当な言葉、公序良俗に反する言葉など、相手が不快に感じるような種々の文言が登録されている。
As shown in FIG. 6, the telephone control device 1C of the third embodiment includes an
会話支援処理部120Cが、電話回線を接続して通話を行う双方の話者からの通話音声を解析し、事前防止(不適切発言部分の上書き)を行う機能を実現する部分となる。会話支援処理部120Cは、図2に示すように、音声認識部1211と、不適切発言検出部1216と、不適切発言上書き部1217とからなる音声処理部121Cを備える。更に、会話支援処理部120Cは、ガイダンス作成部131と、ガイダンス提供部132とを備える。
The conversation support processing unit 120C is the part that realizes the function of analyzing the voices of both speakers who are connected to the telephone line and preventing inappropriate remarks in advance (overwriting inappropriate remarks). As shown in FIG. 2, the conversation support processing unit 120C includes a voice processing unit 121C that is made up of a
この第3の実施の形態の電話制御装置1Cは、自己の配下の電話端末3からの通話音声に、不適切な発言部分が含まれていた場合に、当該部分を外線電話端末7には提供しないようにする。さらに、電話制御装置1Cは、不適切な発言部分を含む通話音声の送信元である電話端末3に対しては、注意喚起を促すガイダンスメッセージを提供する。従って、外線電話端末7からの通話音声に不適切な発言部分が含まれていたとしても、これはそのまま電話端末3に提供される。
In the third embodiment, when an inappropriate remark is included in a call voice from a
すなわち、音声認識部1211は、電話端末3からの通話音声と外線電話端末7からの通話音声とのそれぞれについて、区別できる。そこで、この第3の実施の形態の電話制御装置においては、通話回線を接続して、通話を行う電話端末3からの通話音声をテキストデータに変換する処理を行う。不適切発言検出部1216は、電話端末3の話者からの通話音声から変換されたテキストデータを、文節や単語に区切るようにして解析し、不適切文言辞書105Cを参照して、不適切文言部分を検出する。
That is, the
不適切発言上書き部1217は、不適切発言検出部1216で検出された不適切な発言部分に対応する通話音声部分を、この実施の形態の電話制御装置1Cでは無音に置き換えて、相手先である外線電話端末7に対して送信するようにする処理を行う。このように、送受される通話音声は、必ず音声処理部121Cを通じて、相手先に送信するようにされる。ガイダンス作成部131は、不適切な発言部分が検出された通話音声の提供元である電話端末3の話者に対して注意喚起を促すガイダンスメッセージを作成する。当該ガイダンスメッセージは、例えば、「不適切な発言がありました。当該部分の音声情報は相手先には送信されていません。」などといったものとなる。
The inappropriate
ガイダンス提供部132は、ガイダンス作成部131で作成されたガイダンスメッセージ(テキストデータ)を音声情報に変換し、当該不適切発言を行った電話端末3の話者に対してのみ提供する処理を行う。すなわち、ガイダンス提供部132は、ガイダンス作成部131で作成されたガイダンスメッセージ(テキストデータ)を内線I/F107及び接続端107Tを通じて、電話回線を接続している配下の電話端末3に提供する。
The
なお、この第3の実施の形態の電話制御装置1Cでは、配下の電話端末3からの通話音声に対して、不適切な発言部分の検出を行うようにした。しかし、この第3の実施の形態の電話制御装置1Cの音声処理部121Cにおいても、通話回線を接続して、通話を行う双方の話者からのそれぞれの通話音声を処理対象とし、処理対象についてどちらの話者の通話音声なのかを区別可能に処理することができる。このため、外線電話端末7からの通話音声についても、電話端末3からの通話音声を処理対象とする場合と同様に不適切な発言部分を検出し、当該部分の通話音声は電話端末3には提供しないようにできる。また、この場合には、不適切発言があったことを通知するガイダンスメッセージを形成して、外線電話端末7に対して提供することもできる。
In the telephone control device 1C of the third embodiment, inappropriate remarks are detected from the call voice from the
<第3の実施の形態の通話支援システムでの処理>
図7は、第3の実施の形態の電話制御装置1Cが用いられて構成された通話支援システムでの処理を説明するためのシーケンス図である。図7においても、電話端末3から外線電話端末7に電話を掛けることにより、あるいは、外線電話端末7から電話端末3に電話を掛けることにより、電話端末3と外線電話端末7との間に通話回線が接続され、通話が開始されているものとする(ステップS41)。
<Processing in the communication support system according to the third embodiment>
Fig. 7 is a sequence diagram for explaining the process of the call support system configured using the telephone control device 1C of the third embodiment. In Fig. 7, it is assumed that a call line is connected between the
図1を用いて説明したように、電話端末3は、電話制御装置1Cの配下の電話端末であるため、電話端末3と外線電話端末7との間の通話音声は、全て電話制御装置1Cを介して送受される。すなわち、電話制御装置1Cは、電話端末3と外線電話端末7との間の全ての通話音声を中継する。このため、電話制御装置1Cでは、制御部102の制御により、通話音声の転送と音声認識が開始される(ステップS42)。
As explained using FIG. 1,
第3の実施の形態の電話制御装置1Cでは、例えば、制御部102が機能して、音声認識部1211で通話音声から変換されたテキストデータに基づいて、挨拶の内容などから、通話の相手先である外線電話端末7の話者に関する情報を抽出する(ステップS43)。また、ステップS43において、制御部102は、相手先である外線電話端末7に割り当てられている電話番号をも用いて外線電話端末7の話者に関する情報を抽出する。外線電話端末7の電話番号は、外線電話端末7が発信元である場合には、当該外線電話端末7から提供される発信元電話番号を用いることができ、外線電話端末7が着信先である場合には、発信元である電話端末3から提供される着信先電話番号を用いることができる。
In the telephone control device 1C of the third embodiment, for example, the
ステップS43で抽出される外線電話端末7の話者に関する情報は、不適切な発言部分の抽出処理において用いられる。例えば、外線電話端末7の話者が、得意先の話者である場合には、失礼が無いように高いレベルで不適切な発言部分の検出を行わなければならない。また、外線電話端末7の話者が、発注先である場合には、特にハラスメント的な発言には注意を要する。このように、外線電話端末7の話者が、誰なのかによって、不適切な発言の内、どの分野の発言により注意が必要なのかが異なる場合があるため、外線電話端末7の話者に関する情報も考慮することになる。ステップS43の処理の後においては、電話制御装置1Cの音声認識部1211で行われる音声認識は、電話制御装置1Cの配下の電話端末3からの通話音声だけに絞り込んでもよい。
The information about the speaker of the
この後、電話制御装置1Cの音声処理部121Cでは、電話端末3からの通話音声を処理対象とする(ステップS44)。従って、電話端末3からの通話音声について、音声認識部1211が機能して通話音声をテキストデータに変換し、このテキストデータについて、不適切発言検出部1216が、不適切文言辞書105Cを参照して、不適切な発言部分の検出を行う(ステップS45)。なお、ステップS45において、不適切発言検出部1216は、相手先である外線電話端末7の話者が誰かに応じて、不適切な発言となるレベルを調整できる。
Then, the voice processing unit 121C of the telephone control device 1C processes the call voice from the telephone terminal 3 (step S44). Therefore, for the call voice from the
このため、不適切文言辞書105Cに登録されている辞書データには、例えば、レベルを示す情報が付加されており、レベルに応じて不適切な発言部分を検出することができるようにされる。例えば、相手先が得意先である場合には、全範囲で高いレベルで厳しく不適切発言を検出し、相手先が発注先である場合には、ハラスメントの範囲について厳しく不適切発言を検出するなどのことができる。
For this reason, the dictionary data registered in the
ステップS45において、電話端末3からの通話音声において、不適切な発言部分が検出されたとする。この場合、不適切発言検出部1216から不適切発言上書き部1217に対して、当該電話端末からの通話音声の当該不適切な発言部分を示す情報が提供される。ここで、通話音声の不適切な発言部分を示す情報は、例えば、通話開始時点を始点とする時間情報、あるいは、通話音声の先頭から割り当てられたアドレス情報(ポインタ情報)などである。
In step S45, it is assumed that an inappropriate remark portion is detected in the call audio from
不適切発言上書き部1217は、不適切発言検出部1216からの情報に基づいて、電話端末3からの通話音声の不適切な発言部分を無音で上書きし、この上書きされた通話音声を、通話の相手先である外線電話端末7に送信する(ステップS46)。これにより、通話の相手先である外線電話端末7に対しては、電話端末3からの通話音声であって、不適切な発言部分が無音で上書きされた通話音声が提供される(ステップS47)。
Based on the information from the inappropriate
更に、電話制御装置1Cでは、ガイダンス作成部131が機能して、不適切な発言があったことを通知するガイダンスメッセージ(テキストデータ)が形成される(ステップS48)。
Furthermore, in the telephone control device 1C, the
ガイダンス作成部131で形成されたガイダンスメッセージは、ガイダンス提供部132において音声情報に変換されて、通話回線を接続して通話を行っている不適切な発言の送信元である電話端末3に送信される(ステップS49)。これにより、当該電話端末3に対して、ガイダンスメッセージが提供される(ステップS50)。これにより、電話端末3の話者は、自分が不適切な発言をしてしまったことを認識し、以後の発言について注意を払うことができる。
The guidance message created by the
この後、制御部102は、通常の通話に戻るように各部を制御し(ステップS51)。これにより、通話音声の送受信が中断されることなく継続され(ステップS52)、上述したステップS44からの処理が繰り返すようにされる。このようにして、電話制御装置1Cの配下の電話端末3を利用する話者は、自己の不適切な発言を、相手先に通知することなく、自己が不適切な発言を行ったことをガイダンスメッセージで認識して、以後の発言に注意を払うことができる。従って、通話に相手に対して、不用意に不快な思いをさせることが無い。
The
なお、この第3の実施の形態では、電話制御装置1Cの配下の電話端末3からの通話音声についてだけ、不適切な発言部分を検出し、無音で置き換えるようにしたが、これに限るものではない。上述もしたように、外線電話端末7からの通話音声についても、電話端末3からの通話音声を処理対象とする場合と同様に不適切な発言部分を検出し、当該部分の通話音声は電話端末3には提供しないようにできる。また、この場合には、不適切発言があったことを通知するガイダンスメッセージを形成して、外線電話端末7に対して提供することもできる。
In the third embodiment, inappropriate remarks are detected and replaced with silence only for the call voice from
従って、内線内で通話する場合、例えば、電話端末3(1)と電話端末3(3)で通話するような場合であっても、双方からの通話音声について不適切な発言部分を検出し、その部分の通話音声を無音で置き換えて、相手先に提供するようにできる。また、この場合においても、不適切な発言を行ったのは、どちらの電話端末の話者であるかを把握できる。単に通話経路の違いだけでなく、通話音声(音声データ)に付加されている送信元を示す情報に基づいて送信元を特定できる。これにより、不適切な発言を行った話者の電話端末に対して、ガイダンスメッセージを提供できる。 Therefore, when making an internal call, for example, when a call is made between telephone terminal 3(1) and telephone terminal 3(3), it is possible to detect inappropriate remarks in the call voice from both parties, replace those parts of the call voice with silence, and provide the silenced parts to the other party. Even in this case, it is possible to determine which telephone terminal made the inappropriate remark. The sender can be identified based not only on differences in the call paths, but also on information indicating the sender that is added to the call voice (voice data). This makes it possible to provide a guidance message to the telephone terminal of the speaker who made the inappropriate remark.
また、ガイダンスメッセージは、上述したものに限るものではなく、例えば、「○○〇…は、不適切な文言です。」といったように、話者に対して、当該話が発したどの文言が、不適切なのかを、ガイダンスメッセージで通知することも可能である。これにより、不適切な発言を意識せずに行ってしまった話者は、何が不適切な発言だったのかを明確に把握することができ、以降、その発言を行うことが無いように意識することができる。 In addition, the guidance message is not limited to the above, and it is also possible to use a guidance message to inform the speaker which words uttered by the speaker are inappropriate, for example, "XXX... is an inappropriate statement." This allows a speaker who has made an inappropriate statement without realizing it to clearly understand what was inappropriate and to be conscious of not making that statement in the future.
[電話会議、オンライン会議への適用]
上述もしたように、この発明は、2者間の通話を中継する電話制御装置だけでなく、電話会議やオンライン会議のように、2名以上の複数の話者が参加した会議を行うこともできる。電話会議は、電話制御装置やクラウドPBXに電話会議機能が設けられていれば実現できる。また、オンライン会議の場合には、IP網62上の会議サーバにより実現される。
[Application to telephone conferences and online meetings]
As described above, the present invention is not only a telephone control device that relays a call between two people, but also a conference in which two or more speakers participate, such as a telephone conference or an online conference. A telephone conference can be realized if the telephone control device or cloud PBX is provided with a telephone conference function. In the case of an online conference, it is realized by a conference server on the IP network 62.
このため、電話会議機能が設けられた電話制御装置やクラウドPBXに、また、IP網62上の会議サーバに、上述した電話制御装置1A、1B、1Cの会話支援処理部120A、120B、120Cを設け、各話者からの通話音声を処理対象とすればよい。これにより、2名以上の複数の話者が参加した電話会議、オンライン会議の場合であっても、(1)事後訂正(あいまいな発言部分の訂正)、(2)事前補足(不明発言部分の補足)、(3)事前防止(不適切発言部分の上書き)の各機能を用いるようにできる。 For this reason, the conversation support processing units 120A, 120B, and 120C of the telephone control devices 1A, 1B, and 1C described above can be provided in a telephone control device or cloud PBX equipped with a telephone conference function, or in a conference server on the IP network 62, and the call voices from each speaker can be processed. This makes it possible to use the following functions even in a telephone conference or online conference in which two or more speakers participate: (1) post-correction (correction of ambiguous remarks), (2) advance supplementation (supplementation of unclear remarks), and (3) advance prevention (overwriting of inappropriate remarks).
[実施の形態の効果]
この発明によれば、2者間の通話や電話会議、オンライン会議を行う場合に、各話者(参加者)を適切に支援できる。これにより、話者全員の利便性を向上させると共に、2者間の通話、電話会議、オンライン会議の質の向上を実現できる。
[Effects of the embodiment]
According to the present invention, when a two-party call, a telephone conference, or an online conference is held, each speaker (participant) can be appropriately supported. This improves the convenience of all speakers and improves the quality of the two-party call, the telephone conference, or the online conference.
[変形例]
上述した第1、第2、第3の実施の形態の電話制御装置は、それぞれ異なる機能を備えるものとして説明したが、これに限るものではない。会話支援処理部120A、120B、120Cを備えることにより、(1)事後訂正(あいまいな発言部分の訂正)機能、(2)事前補足(不明発言部分の補足)機能、(3)事前防止(不適切発言部分の上書き)機能の2つの機能を備えた電話制御装置を実現できる。もちろん、(1)事後訂正機能、(2)事前補足機能、(3)事前防止機能の内の2つの機能を備えるようにすることも可能である。電話会議機能を備えた電話制御装置やクラウドPBX、また、オンライン会議を実現するための会議サーバについても同様である。
[Modification]
The telephone control devices of the first, second, and third embodiments described above have been described as having different functions, but are not limited to this. By providing the conversation support processing units 120A, 120B, and 120C, a telephone control device having two functions, namely, (1) post-correction (correction of ambiguous remarks) function, (2) advance supplement (supplement of unclear remarks) function, and (3) advance prevention (overwriting of inappropriate remarks) function, can be realized. Of course, it is also possible to provide two of the functions of (1) post-correction function, (2) advance supplement function, and (3) advance prevention function. The same applies to telephone control devices and cloud PBXs with telephone conference functions, and conference servers for realizing online conferences.
また、上述した実施の形態では、電話制御装置、クラウドPBX、会議サーバなどにこの発明が適用可能であることを説明したが、これに限るものではない。例えば、社内とIP網とを接続するゲートウェイ装置にこの発明を適用することもできる。要は、複数の話者間で、種々のネットワークを通じて音声情報を送受する通話を行う場合に、各話者からの音声情報を中継する種々の装置に対して、この発明を適用することができる。 In addition, in the above-mentioned embodiment, it has been explained that the present invention can be applied to telephone control devices, cloud PBXs, conference servers, etc., but the present invention is not limited to these. For example, the present invention can also be applied to a gateway device that connects a company to an IP network. In short, when a call is made between multiple speakers in which voice information is sent and received through various networks, the present invention can be applied to various devices that relay voice information from each speaker.
また、上述した第3の実施の形態においては、不適切な発言は、相手を馬鹿にする言葉、差別的な言葉、不穏当な言葉、公序良俗に反する言葉など、相手が不快に感じるような種々の文言であるものとして説明した。しかし、これに限るものではない。これらの言葉に該当しなくても、相手先に伝えたくない文言がある場合には、これを不適切文言辞書105Cに登録しておくことにより、これを相手先に伝えないようにすることができる。例えば、相手先が誰かは、電話番号や接続IDなどの各話者に固有の識別情報により分かる。このため、相手先に応じて、相手先が気にしたり、嫌がったりする文言を不適切文言辞書105Cに登録しておくことで、相手先に応じて不適切となる文言を伝えないようにすることができる。
In the third embodiment described above, inappropriate remarks are described as various words that make the other party feel uncomfortable, such as words that make the other party feel insulted, discriminatory words, inappropriate words, and words that go against public order and morals. However, this is not limited to these. Even if there is a word that does not fall under these words but that you do not want to convey to the other party, you can register it in the
また、第1、第2の実施の形態においても、電話番号や接続IDなどの各話者に固有の識別情報により、あるいは、通話の始めの挨拶などの通音音声のテキストデータを解析することにより、通話の相手先は誰なのかを把握することができる。当該解析は、あいまい発言検出部1212や不明発言検出部1214で行えばよい。このため、第1の実施の形態の電話制御装置1Aにおいては、通話の相手先が誰なのかを考慮して、あいまいな発言部分を検出したり、キーワードを抽出したり、検索を行ったりすることができる。また、第2の実施の形態の電話制御装置1Bにおいては、通話の相手先が誰なのかを考慮して、不明な発言部分を検出したり、キーワードを抽出したり、検索を行ったりすることができる。
Also, in the first and second embodiments, the identity of the caller can be determined by analyzing identification information unique to each speaker, such as a telephone number or a connection ID, or by analyzing text data of the sounded voice, such as the greeting at the beginning of the call. This analysis can be performed by the ambiguous
また、第1の実施の形態では、訂正文(テキストデータ)を音声情報に変換して提供した。また、第2の実施の形態では、補足文(テキストデータ)を音声情報に変換して、提供した。また、第3の実施の形態では、ガイダンスメッセージを音声情報に変換して提供した。しかし、これに限るものではない。訂正文、補足文、ガイダンスメッセージの提供先が、テキストデータを受信して、表示出力したり、音声情報に変換して出力したりすることができる機能を備える場合には、訂正文、補足文、ガイダンスメッセージをテキストデータとして提供先に提供してもよい。 In the first embodiment, the correction text (text data) is converted into audio information and provided. In the second embodiment, the supplementary text (text data) is converted into audio information and provided. In the third embodiment, the guidance message is converted into audio information and provided. However, this is not limited to this. If the recipient of the correction text, supplementary text, or guidance message has a function that can receive text data and display it or convert it into audio information and output it, the correction text, supplementary text, or guidance message may be provided to the recipient as text data.
特に、会議サーバを通じて、PC(Personal Computer)やタブレットPC、スマートフォンを用いてオンライン会議を行う場合には、訂正文、補足文、ガイダンスメッセージをテキストデータとして提供先に提供する。これにより、提供先においては、訂正文、補足文、ガイダンスメッセージを、用いているPC、タブレットPC、スマートフォンのディスプレイに表示し、使用者に提供できる。これにより、音声による会議の邪魔をすることなく、訂正文、補足文、ガイダンスメッセージをテキストデータとして、適切なタイミングで目的とする提供先の使用者に提供できる。 In particular, when an online conference is held using a PC (Personal Computer), tablet PC, or smartphone through a conference server, corrections, supplementary text, and guidance messages are provided to the intended recipient as text data. As a result, the recipient can display the corrections, supplementary text, and guidance messages on the display of the PC, tablet PC, or smartphone being used and provide them to the user. This allows corrections, supplementary text, and guidance messages to be provided to the intended recipient user as text data at the appropriate time without disrupting the audio conference.
[その他]
上述した実施の形態の説明からも分かるように、請求項の音声認識手段の機能は、実施の形態の電話制御装置1A、1B、1Cの音声認識部1211が実現している。また、請求項の検出手段の機能は、電話制御装置1Aのあいまい発言検出部1212が、電話制御装置1Bの不明発言検出部1214が、電話制御装置1Cの不適切発言検出部1216がそれぞれ実現している。また、請求項の作成手段の機能は、電話制御装置1Aでは、キーワード抽出部1213、検索実行部123、訂正文作成部125が実現している。同様に、請求項の作成手段の機能は、電話制御装置1Bでは、キーワード抽出部1213、検索実行部123、補足文作成部128が、電話制御装置1Cでは、不適切発言上書き部1217が、それぞれ実現している。また、請求項の提供手段の機能は、電話制御装置1Aの訂正提供部126が、電話制御装置1Bの補足提供部129が、電話制御装置1Cの不適切発言上書き部1217がそれぞれ実現している。
[others]
As can be seen from the above description of the embodiment, the function of the voice recognition means in the claims is realized by the
また、図3、図5、図7のシーケンス図を用いて説明した電話制御装置1A、1B、1Cで行われる処理が、この発明の通話支援方法の一実施の形態が適用されたものである。 The processes performed by the telephone control devices 1A, 1B, and 1C described using the sequence diagrams in Figures 3, 5, and 7 are an embodiment of the call support method of the present invention.
1A、1B、1C…電話制御装置、101T…接続端、101…電話網I/F、102…制御装置、103…記憶装置、104…端末管理ファイル、105A…あいまい発言辞書、105B…不明状況辞書、105C…不適切文言辞書、106…検索先判定辞書、107T…接続端、107…内線I/F、108T…接続端、108…LANI/F、109…呼制御部、109S…発信制御部、109R…着信制御部、110T…接続端、110…通信I/F、120A…会話支援処理部、121A…音声処理部、1211…音声認識部、1212…あいまい発言検出部、1213…キーワード抽出部、122…検索先判定部、123…検索実行部、124…正誤判定部、125…訂正文作成部、126…訂正制御部、120B…会話支援処理部、1214…不明発言検出部、1215…キーワード抽出部、127…検索成否判定部、128…補足文作成部、129…補足提供部、120C…会話支援処理部、1216…不適切発言検出部、1217…不適切発言上書き部、131…ガイダンス作成部、132…ガイダンス提供部、2…内線電話網、3、3(1)、3(2)、3(3)…電話端末、4…LAN、5(1)…内部情報サーバ、6…広域ネットワーク、61…外線電話網、62…IP網、7、7(1)…外線電話端末、8(1)…情報提供サーバ 1A, 1B, 1C...telephone control device, 101T...connection end, 101...telephone network I/F, 102...control device, 103...storage device, 104...terminal management file, 105A...ambiguous speech dictionary, 105B...unknown situation dictionary, 105C...inappropriate word dictionary, 106...search destination determination dictionary, 107T...connection end, 107...extension I/F, 108T...connection end, 108...LAN I/F, 109...call control unit, 109S...outgoing call control unit, 109R...incoming call control unit, 110T...connection end, 110...communication I/F, 120A...conversation support processing unit, 121A...voice processing unit, 1211...voice recognition unit, 1212...ambiguous speech detection unit, 1213...keyword extraction unit, 122...search destination determination unit, 1 23...search execution unit, 124...correction judgment unit, 125...correction sentence creation unit, 126...correction control unit, 120B...conversation support processing unit, 1214...unclear remark detection unit, 1215...keyword extraction unit, 127...search success/failure judgment unit, 128...supplement sentence creation unit, 129...supplement provision unit, 120C...conversation support processing unit, 1216...inappropriate remark detection unit, 1217...inappropriate remark overwriting unit, 131...guidance creation unit, 132...guidance provision unit, 2...extension telephone network, 3, 3(1), 3(2), 3(3)...telephone terminal, 4...LAN, 5(1)...internal information server, 6...wide area network, 61...external telephone network, 62...IP network, 7, 7(1)...external telephone terminal, 8(1)...information provision server
Claims (5)
それぞれの話者からの音声情報をテキストデータに変換する音声認識手段と、
前記音声認識手段からの前記テキストデータを解析し、支援が必要となる所定部分を検出する検出手段と、
前記検出手段で前記所定部分が検出された場合に、前記所定部分に応じたメッセージを作成し、あるいは、前記音声情報の前記所定部分に対応する部分を加工して加工済み音声情報を作成する作成手段と、
前記メッセージを、テキスト情報として、または、音声情報に変換して、少なくとも前記所定部分を検出した音声情報の提供元の話者に対して提供し、前記加工済み音声情報を、前記所定部分を検出した音声情報の提供元の話者以外の話者に対して提供する提供手段と
を備えることを特徴とする通話支援装置。 A communication support device that relays voice information from each speaker when a call is made between a plurality of speakers by transmitting and receiving voice information over a network, comprising:
a speech recognition means for converting speech information from each speaker into text data;
a detection means for analyzing the text data from the speech recognition means and detecting a predetermined portion requiring assistance;
a creating means for creating a message corresponding to the predetermined portion when the detecting means detects the predetermined portion, or for creating processed voice information by processing a portion of the voice information corresponding to the predetermined portion;
and a providing means for converting the message into text information or into audio information and providing the converted audio information to a speaker who provided at least the audio information from which the specified portion was detected, and for providing the processed audio information to a speaker other than the speaker who provided the audio information from which the specified portion was detected.
前記検出手段は、あいまいな発言部分を検出するものであり、
前記作成手段は、
前記音声認識手段からの前記テキストデータから、前記あいまいな発言部分についての正確な内容を検索するための検索用キーワードを抽出する第1の抽出手段と、
前記第1の抽出手段で抽出された前記検索用キーワードを用いて、所定のネットワーク上に開示された情報を検索対象として検索を行う第1の検索手段と、
前記第1の検索手段からの検索結果に基づいて、前記メッセージとして訂正文を作成する訂正文作成手段と
を備えるものであり、
前記提供手段は、前記訂正文を、テキスト情報として、または、音声情報に変換して提供するものである
ことを特徴とする通話支援装置。 The communication support device according to claim 1,
The detection means detects an ambiguous utterance portion,
The creating means includes:
a first extraction means for extracting a search keyword for searching for an accurate content of the ambiguous utterance portion from the text data from the voice recognition means;
a first search means for searching information disclosed on a predetermined network by using the search keyword extracted by the first extraction means;
and a correction message creation means for creating a correction message as the message based on a search result from the first search means,
The communication support device according to claim 1, wherein the providing means provides the correction sentence as text information or by converting the correction sentence into voice information.
前記検出手段は、不明発言部分を検出するものであり、
前記作成手段は、
前記音声認識手段からの前記テキストデータから、前記不明発言部分についての適切な内容を検索するための検索用キーワードを抽出する第2の抽出手段と、
前記第2の抽出手段で抽出された前記検索用キーワードを用いて、所定のネットワーク上に開示された情報を検索対象として検索を行う第2の検索手段と、
前記第2の検索手段からの検索結果に基づいて、前記メッセージとして補足文を作成する補足文作成手段と
を備えるものであり、
前記提供手段は、前記補足文を、テキスト情報として、または、音声情報に変換して提供するものである
ことを特徴とする通話支援装置。 The communication support device according to claim 1,
The detection means detects an unclear utterance portion,
The creating means includes:
a second extraction means for extracting search keywords for searching for appropriate content for the unclear utterance portion from the text data from the speech recognition means;
a second search means for performing a search for information disclosed on a predetermined network by using the search keyword extracted by the second extraction means;
and a supplemental text creating means for creating a supplemental text as the message based on a search result from the second search means,
The communication support device according to claim 1, wherein the providing means provides the supplementary sentence as text information or by converting the supplementary sentence into audio information.
前記検出手段は、不適切発言部分を検出するものであり、
前記作成手段は、
前記1の話者からの前記音声情報の前記不適切部分に対応する部分を無音若しくは他の情報で上書きすることにより、前記加工済み音声情報を作成する上書き手段として機能するものである
ことを特徴とする通話支援装置。 The communication support device according to claim 1,
The detection means detects an inappropriate comment portion,
The creating means includes:
a communication support device which functions as an overwriting means for creating the processed voice information by overwriting a portion of the voice information from the one speaker corresponding to the inappropriate portion with silence or other information.
音声認識手段が、それぞれの話者からの音声情報をテキストデータに変換する音声認識工程と、
検出手段が、前記音声認識工程において変換した前記テキストデータを解析し、支援が必要となる所定部分を検出する検出工程と、
前記検出工程において前記所定部分が検出された場合に、作成手段が、前記所定部分に応じたメッセージを作成し、あるいは、前記音声情報の前記所定部分に対応する部分を加工して加工済み音声情報を作成する作成手段と、
提供手段が、前記メッセージを、テキスト情報として、または、音声情報に変換して、少なくとも前記所定部分を検出した音声情報の提供元の話者に対して提供し、あるいは、前記加工済み音声情報を、前記所定部分を検出した音声情報の提供元の話者以外の話者に対して提供する提供工程と
有することを特徴とする通話支援方法。 A method for supporting a call used in a call support device that relays voice information from each speaker when a call is made between a plurality of speakers by transmitting and receiving voice information over a network, comprising:
a speech recognition step in which speech recognition means converts speech information from each speaker into text data;
a detection step in which a detection means analyzes the text data converted in the speech recognition step and detects a predetermined portion requiring assistance;
a creating means for creating a message corresponding to the predetermined portion when the predetermined portion is detected in the detecting step, or for creating processed voice information by processing a portion of the voice information corresponding to the predetermined portion;
a providing step in which a providing means converts the message into text information or into voice information and provides the message to a speaker who provided at least the voice information from which the specified portion was detected, or provides the processed voice information to a speaker other than the speaker who provided the voice information from which the specified portion was detected.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2023144235A JP2025037354A (en) | 2023-09-06 | 2023-09-06 | Communication support device and communication support method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2023144235A JP2025037354A (en) | 2023-09-06 | 2023-09-06 | Communication support device and communication support method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2025037354A true JP2025037354A (en) | 2025-03-18 |
Family
ID=95023171
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023144235A Pending JP2025037354A (en) | 2023-09-06 | 2023-09-06 | Communication support device and communication support method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2025037354A (en) |
-
2023
- 2023-09-06 JP JP2023144235A patent/JP2025037354A/en active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110891124B (en) | System for artificial intelligence pick-up call | |
| US8856236B2 (en) | Messaging response system | |
| US8924217B2 (en) | Communication converter for converting audio information/textual information to corresponding textual information/audio information | |
| US8688092B1 (en) | Methods and systems for managing telecommunications and for translating voice messages to text messages | |
| US6775366B1 (en) | System and method for adding internet functionality to a telephone call | |
| US20080215323A1 (en) | Method and System for Grouping Voice Messages | |
| US9444934B2 (en) | Speech to text training method and system | |
| US20100150331A1 (en) | System and method for telephony simultaneous translation teleconference | |
| WO2005094051A1 (en) | Active speaker information in conferencing systems | |
| US11032420B2 (en) | Telephone call management system | |
| CN103327198A (en) | System and method for verifying callers of telephone call-in centers | |
| CN110830417A (en) | Call result acquisition method, system, IVR device, and computer-readable storage medium | |
| US12131125B2 (en) | Automated outcome classification systems in contact interactions, and methods | |
| US7539295B1 (en) | Method for creating and maintaining threads of phone/email/fax/SMS conversations | |
| JP2025037354A (en) | Communication support device and communication support method | |
| US10462286B2 (en) | Systems and methods for deriving contact names | |
| US8310959B2 (en) | Voice Communication with any of multiple terminals | |
| JP2024093884A (en) | Information Processing System | |
| JP2017163198A (en) | Voice recognition system, connect device, and voice recognition method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20240823 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20260109 |