JP7586367B1 - Audio processing device, audio processing method, and program - Google Patents
Audio processing device, audio processing method, and program Download PDFInfo
- Publication number
- JP7586367B1 JP7586367B1 JP2024104877A JP2024104877A JP7586367B1 JP 7586367 B1 JP7586367 B1 JP 7586367B1 JP 2024104877 A JP2024104877 A JP 2024104877A JP 2024104877 A JP2024104877 A JP 2024104877A JP 7586367 B1 JP7586367 B1 JP 7586367B1
- Authority
- JP
- Japan
- Prior art keywords
- text data
- text
- monitoring
- language
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】多言語の同時通訳における同時通訳結果を容易に修正することが可能な音声処理装置、音声処理方法、及びプログラムを提供する。
【解決手段】第1の言語によるユーザの発話内容を示す音声データを、同時通訳によって、前記第1の言語と異なる複数の第2の言語への翻訳結果を示すテキストデータに変換する音声変換部と、複数の前記第2の言語のうち指定された1つの前記第2の言語について、前記テキストデータに対する修正を受け付けるモニタリング処理部と、修正後の前記テキストデータを、修正時に指定されなかった前記第2の言語に翻訳し、複数の前記第2の言語ごとに修正が反映された翻訳結果を示すテキストデータを取得する翻訳部と、を備える音声処理装置。
【選択図】図2
A speech processing device, a speech processing method, and a program are provided that are capable of easily correcting the results of simultaneous interpretation in multiple languages.
[Solution] A voice processing device comprising: a voice conversion unit that converts voice data indicating the content of a user's speech in a first language into text data indicating the translation results into a plurality of second languages different from the first language through simultaneous interpretation; a monitoring processing unit that accepts corrections to the text data for one specified second language among the plurality of second languages; and a translation unit that translates the corrected text data into the second language that was not specified at the time of correction, and obtains text data indicating the translation results in which the corrections are reflected for each of the plurality of second languages.
[Selected figure] Figure 2
Description
本発明は、音声処理装置、音声処理方法、及びプログラムに関する。 The present invention relates to an audio processing device, an audio processing method, and a program.
近年、AI(Artificial Intelligence)の発展により、AIを用いた音声認識や機械翻訳の精度は向上しているが、認識結果や翻訳結果に誤認識や誤訳が含まれることがある。 In recent years, advances in AI (Artificial Intelligence) have improved the accuracy of AI-based speech recognition and machine translation, but the recognition and translation results may still contain misrecognitions or mistranslations.
これに関連し、下記特許文献1には、音声認識による認識結果を修正するための技術が開示されている。当該技術は、例えば、音声データを含む動画データにおいて、音声認識結果に基づき生成される字幕を修正する際に用いられる。
In this regard, the following
ところで、音声認識と機械翻訳を組み合わせることで同時通訳が可能となる。同時通訳においても、認識結果又は翻訳結果に誤認識又は誤訳が含まれることがある。このため、多言語の同時通訳において、同時通訳結果に誤認識及び誤訳の少なくとも一方でも含まれていると、チェッカーは1つ1つの言語ごとに同時通訳結果を修正する必要があり、修正が容易ではなかった。 By the way, simultaneous interpretation is possible by combining speech recognition and machine translation. However, even in simultaneous interpretation, the recognition or translation results may contain misrecognition or mistranslation. For this reason, in simultaneous interpretation of multiple languages, if the simultaneous interpretation results contain at least one misrecognition or mistranslation, the checker must correct the simultaneous interpretation results for each language, which is not easy to do.
上述の課題を鑑み、本発明の目的は、多言語の同時通訳における同時通訳結果を容易に修正することが可能な音声処理装置、音声処理方法、及びプログラムを提供することにある。 In view of the above problems, the object of the present invention is to provide a speech processing device, a speech processing method, and a program that can easily correct the results of simultaneous interpretation in multiple languages.
上述の課題を解決するために、本発明の一態様に係る音声処理装置は、第1の言語によるユーザの発話内容を示す音声データを、同時通訳によって、前記第1の言語と異なる複数の第2の言語への翻訳結果を示すテキストデータに変換する音声変換部と、複数の前記第2の言語のうち指定された1つの前記第2の言語について、前記テキストデータに対する修正を受け付けるモニタリング処理部と、修正後の前記テキストデータを、修正時に指定されなかった前記第2の言語に翻訳し、複数の前記第2の言語ごとに修正が反映された翻訳結果を示すテキストデータを取得する翻訳部と、を備える音声処理装置である。 In order to solve the above-mentioned problems, a voice processing device according to one aspect of the present invention is a voice processing device that includes a voice conversion unit that converts voice data indicating the contents of a user's utterance in a first language into text data indicating the translation results into a plurality of second languages different from the first language by simultaneous interpretation, a monitoring processing unit that accepts corrections to the text data for one specified second language among the plurality of second languages, and a translation unit that translates the corrected text data into the second language that was not specified at the time of correction and obtains text data indicating the translation results in which the corrections are reflected for each of the plurality of second languages.
本発明の一態様に係る音声処理方法は、第1の言語によるユーザの発話内容を示す音声データを、同時通訳によって、前記第1の言語と異なる複数の第2の言語への翻訳結果を示すテキストデータに変換する音声変換過程と、複数の前記第2の言語のうち指定された1つの前記第2の言語について、前記テキストデータに対する修正を受け付けるモニタリング処理過程と、修正後の前記テキストデータを、修正時に指定されなかった前記第2の言語に翻訳し、複数の前記第2の言語ごとに修正が反映された翻訳結果を示すテキストデータを取得する翻訳過程と、を含むコンピュータにより実行される音声処理方法である。 A speech processing method according to one aspect of the present invention is a speech processing method executed by a computer, including a speech conversion process for converting speech data indicating the contents of a user's speech in a first language into text data indicating the translation results into a plurality of second languages different from the first language by simultaneous interpretation, a monitoring process for accepting corrections to the text data for one specified second language among the plurality of second languages, and a translation process for translating the corrected text data into the second language that was not specified at the time of correction, and acquiring text data indicating the translation results in which the corrections are reflected for each of the plurality of second languages.
本発明の一態様に係るプログラムは、コンピュータを、第1の言語によるユーザの発話内容を示す音声データを、同時通訳によって、前記第1の言語と異なる複数の第2の言語への翻訳結果を示すテキストデータに変換する音声変換手段と、複数の前記第2の言語のうち指定された1つの前記第2の言語について、前記テキストデータに対する修正を受け付けるモニタリング処理手段と、修正後の前記テキストデータを、修正時に指定されなかった前記第2の言語に翻訳し、複数の前記第2の言語ごとに修正が反映された翻訳結果を示すテキストデータを取得する翻訳手段と、として機能させるためのプログラムである。 A program according to one aspect of the present invention is a program for causing a computer to function as: a speech conversion means for converting speech data indicating the contents of a user's speech in a first language into text data indicating the translation results into a plurality of second languages different from the first language by simultaneous interpretation; a monitoring processing means for accepting corrections to the text data for a specified one of the plurality of second languages; and a translation means for translating the corrected text data into the second language that was not specified at the time of correction, and acquiring text data indicating the translation results in which the corrections are reflected for each of the plurality of second languages.
本発明によれば、多言語の同時通訳における同時通訳結果を容易に修正することができる。 The present invention makes it possible to easily correct the results of simultaneous interpretation in multiple languages.
以下、図面を参照しながら本発明の実施形態について詳しく説明する。 The following describes in detail an embodiment of the present invention with reference to the drawings.
<<1.第1の実施形態>>
図1から図5を参照して、第1の実施形態について説明する。以下では、字幕表示システムについて説明する。字幕表示システムは、ユーザの発話内容を、当該ユーザが用いる言語とは異なる複数の言語に翻訳(多言語翻訳)し、各言語の字幕(多言語字幕)を表示するためのシステムである。
以下では、講演会にて講演するユーザ(講演者)の発話内容(講演内容)が多言語翻訳された字幕を、講演を聴講するユーザ(聴講者)へ配信する例を一例として、第1の実施形態について説明する。なお、第1の実施形態では、講演者が発話する言語(第1の言語)が任意の1つの言語(例えば日本語以外のいずれかの言語)であり、多言語翻訳された字幕の言語(第2の言語)が任意の複数の言語(例えば日本語を含む複数の言語)であるものとする。
<<1. First embodiment>>
A first embodiment will be described with reference to Figures 1 to 5. A subtitle display system will be described below. The subtitle display system is a system for translating a user's speech into multiple languages different from the language used by the user (multilingual translation) and displaying subtitles in each language (multilingual subtitles).
In the following, a first embodiment will be described by taking as an example a case where subtitles obtained by translating the speech content (lecture content) of a user (lecture speaker) giving a lecture at a lecture into multiple languages are distributed to users (listeners) listening to the lecture. In the first embodiment, the language spoken by the lecturer (first language) is any one language (e.g., any language other than Japanese), and the language of the subtitles translated into multiple languages (second language) is any multiple languages (e.g., multiple languages including Japanese).
<1-1.字幕表示システムの構成>
図1を参照して、第1の実施形態に係る字幕表示システムの構成について説明する。図1は、第1の実施形態に係る字幕表示システムの構成の一例を示す図である。
<1-1. Configuration of the subtitle display system>
The configuration of a subtitle display system according to the first embodiment will be described with reference to Fig. 1. Fig. 1 is a diagram showing an example of the configuration of a subtitle display system according to the first embodiment.
図1に示すように、字幕表示システム1は、集音装置10と、音声処理装置20と、同時通訳エンジン21と、機械翻訳エンジン22と、モニタリング端末30と、表示装置40とを備える。
各装置と端末は、有線接続、無線接続、又はネットワーク接続によって、各種情報を送受信可能に接続される。ネットワークには、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、電話網(携帯電話網、固定電話網等)、地域IP(Internet Protocol)網、インターネット等が適用される。
As shown in FIG. 1, the
Each device and terminal are connected to each other via a wired connection, a wireless connection, or a network connection so as to be able to transmit and receive various information. The network may be, for example, a local area network (LAN), a wide area network (WAN), a telephone network (such as a mobile phone network or a landline telephone network), a regional Internet Protocol (IP) network, the Internet, or the like.
(1)集音装置10
集音装置10は、講演者が発話することで生じる音声を集音する装置である。集音装置10は、例えば、マイクである。
集音装置10は、有線接続又は無線接続によって音声処理装置20と通信可能に接続されている。集音装置10は、講演者の音声を集音すると、集音した音声をデータ化し、データ化した音声データを音声処理装置20へ送信する。
(1)
The
The
(2)音声処理装置20
音声処理装置20は、同時通訳の結果を字幕として表示するための処理を行う装置である。音声処理装置20は、例えば、1又は複数のサーバ(例えば、クラウドサーバ)、PC(Personal Computer)などの装置によって実現される。当該装置では、音声処理装置20として機能させるためのプログラムによって各種処理が実行される。
音声処理装置20は、集音装置10から受信する音声データに基づき、各種処理を実行する。音声処理装置20は、例えば、音声変換処理、モニタリング処理、機械翻訳処理、字幕表示処理などを実行する。
(2)
The
The
音声変換処理は、音声データがテキストデータに変換される処理である。音声変換処理にて、音声処理装置20は、集音装置10から受信する音声データを、後述する同時通訳エンジン21の機能によって音声認識及び機械翻訳し、翻訳結果を示すテキストデータを取得する。音声変換処理では、第1の言語で示される1つのテキストデータが第1の言語とは異なる複数の第2の言語で示される複数のテキストデータに機械翻訳される。
The voice conversion process is a process in which voice data is converted into text data. In the voice conversion process, the
モニタリング処理は、音声データに対する音声変換処理の結果(音声変換結果)をチェッカーがモニタリングするために実行される処理である。モニタリング処理にて、音声処理装置20は、モニタリング画面をモニタリング端末30に表示させる。モニタリング画面は、音声データから変換されたテキストデータの表示可否の選択操作と、テキストデータに対する修正操作とを受け付け可能な画面である。
The monitoring process is a process executed by the checker to monitor the results of the voice conversion process on the voice data (voice conversion result). In the monitoring process, the
チェッカーは、モニタリング端末30にてモニタリング画面に表示される音声変換結果を確認することで、音声変換結果をモニタリングすることができる。チェッカーは、モニタリングにて、音声変換処理にて音声データから変換されたテキストデータを字幕として表示可能か否か(表示可否)を判定する。表示可否の判定基準は、例えば、音声変換結果に誤認識又は誤変換があるか否か、あるいは、テキストデータの意味が通じるか否かなどである。音声変換結果に誤認識又は誤変換がある、あるいは、テキストデータの意味が通じない場合、チェッカーは、テキストデータを字幕として表示不可と判定する。一方、音声変換結果に誤認識又は誤変換がなく、かつ、テキストデータの意味が通じる場合、チェッカーは、テキストデータを字幕として表示可能と判定する。
The checker can monitor the voice conversion result by checking the voice conversion result displayed on the monitoring screen of the
チェッカーは、判定結果に応じて、モニタリング画面にて表示可否の選択操作を行い、必要に応じて修正操作を行う。表示可能と判定した場合、チェッカーは、モニタリング画面にて表示可能を選択する操作をする。一方、表示不可と判定した場合、チェッカーは、モニタリング画面にて表示不可を選択する操作をし、表示可能な内容となるようにテキストデータを修正する。チェッカーによる修正操作が完了すると、修正されたテキストデータの表示可否は、音声処理装置20によって自動で表示可能に変更される。
Depending on the result of the judgment, the checker performs an operation to select whether or not the text data can be displayed on the monitoring screen, and performs a correction operation as necessary. If it is judged that the text data can be displayed, the checker performs an operation to select "displayable" on the monitoring screen. On the other hand, if it is judged that the text data cannot be displayed, the checker performs an operation to select "displayable" on the monitoring screen, and corrects the text data so that it can be displayed. Once the correction operation by the checker is completed, the displayability of the corrected text data is automatically changed to "displayable" by the
なお、モニタリング画面には、表示可否の自動選択機能が設けられてもよい。自動選択機能は、モニタリング画面にテキストデータが表示されてから所定の時間が経過後、自動で表示可能又は表示不可が自動で選択される機能である。所定の時間は、モニタリング画面にて任意のユーザ(例えばチェッカーや管理者など)が任意の時間(例えば3秒など)を設定可能である。また、表示可能又は表示不可のどちらを自動で選択するかは、モニタリング画面にて任意のユーザが設定可能である。 The monitoring screen may be provided with an automatic selection function for whether or not to display. The automatic selection function is a function that automatically selects whether to display or not display after a predetermined time has elapsed since text data was displayed on the monitoring screen. The predetermined time can be set by any user (e.g., a checker or an administrator) on the monitoring screen to any time (e.g., 3 seconds). Also, whether to automatically select whether to display or not display can be set by any user on the monitoring screen.
また、モニタリング画面に表示される音声変換結果は、1つの言語のテキストデータのみである。チェッカーは、モニタリング画面にて、音声変換処理にて変換された複数の第2の言語のテキストデータのうち、1つの第2の言語のテキストデータのみについてモニタリングすればよい。なお、複数の第2の言語のテキストデータのうちモニタリング画面に表示する第2の言語のテキストデータは、例えばチェッカーが扱うことが可能な言語に応じて、適宜選択可能である。 The voice conversion result displayed on the monitoring screen is text data in only one language. The checker only needs to monitor, on the monitoring screen, the text data in one second language among the text data in multiple second languages converted by the voice conversion process. Note that the text data in the second language to be displayed on the monitoring screen among the text data in multiple second languages can be appropriately selected according to, for example, the language that the checker can handle.
機械翻訳処理は、テキストデータが翻訳される処理である。機械翻訳処理にて、音声処理装置20は、モニタリング処理にて表示不可と判定され修正されたテキストデータを、後述する機械翻訳エンジン22の機能によって機械翻訳し、翻訳結果を示すテキストデータを取得する。機械翻訳処理では、第1の言語で示される1つのテキストデータが第1の言語とは異なる複数の第2の言語で示される複数のテキストデータに機械翻訳される。このため、音声処理装置20は、機械翻訳処理により、ある言語について修正された1つのテキストデータから、他の複数の言語について修正が反映されたテキストデータを取得することができる。
Machine translation processing is processing in which text data is translated. In machine translation processing, the
字幕表示処理は、字幕が表示される処理である。字幕表示処理にて、音声処理装置20は、機械翻訳処理における翻訳結果を示すテキストデータを、字幕として表示装置40に表示させる。
なお、音声処理装置20は、指定された1つの第2の言語の字幕のみを表示装置40に表示させてもよいし、複数の第2の言語の字幕を表示装置40に表示させてもよい。
The subtitle display process is a process in which subtitles are displayed. In the subtitle display process, the
Note that the
(3)同時通訳エンジン21
同時通訳エンジン21は、第1の言語を第2の言語に同時通訳するエンジン(プログラム)である。同時通訳エンジン21は、音声処理装置20から入力される第1の言語の音声データを音声認識によって第1の言語のテキストデータに変換し、当該第1の言語のテキストデータを第2の言語のテキストデータに機械翻訳(変換)する。同時通訳エンジン21は、1つの第1の言語を異なる複数の第2の言語に機械翻訳する。即ち、同時通訳エンジン21は、1つの第1の言語のテキストデータから複数の第2の言語のテキストデータを生成する。
なお、同時通訳エンジン21の機能は、音声処理装置20とは異なる装置又は端末によって提供されてもよいし、音声処理装置20によって提供されてもよい。
(3)
The
The function of the
(4)機械翻訳エンジン22
機械翻訳エンジン22は、第1の言語を第2の言語に機械翻訳するエンジン(プログラム)である。機械翻訳エンジン22は、音声処理装置20から入力される第1の言語のテキストデータを第2の言語のテキストデータに機械翻訳(変換)する。機械翻訳エンジン22は、1つの第1の言語を異なる複数の第2の言語に機械翻訳する。即ち、機械翻訳エンジン22は、1つの第1の言語のテキストデータから複数の第2の言語のテキストデータを生成する。
なお、機械翻訳エンジン22の機能は、音声処理装置20とは異なる装置又は端末によって提供されてもよいし、音声処理装置20によって提供されてもよい。
(4)
The
The function of the
(5)モニタリング端末30
モニタリング端末30は、チェッカーがモニタリングのために使用する端末である。モニタリング端末30は、例えば、PC、スマートフォン、タブレット端末などの端末である。当該端末では、モニタリング端末30として機能させるためのプログラムによって各種処理が実行される。
モニタリング端末30は、音声処理装置20から受信する画面情報に基づき、モニタリング画面を表示し、チェッカーによるモニタリングに関する各種操作を受け付ける。
(5) Monitoring
The
The
モニタリング端末30には、例えば、モニタリング機能を利用するためのアプリケーション(以下、「モニタリングアプリ」とも称される)によって、モニタリング画面が表示される。チェッカーは、モニタリングアプリによってモニタリング端末30に表示されるモニタリング画面を操作することで、同時通訳結果のモニタリングを行うことができる。
なお、モニタリングアプリの機能は、各端末にモニタリングアプリをインストールすること(即ちネイティブアプリ)で提供されてもよいし、Webシステム(即ちWebアプリ)によって提供されてもよい。Webアプリの場合、モニタリングアプリはサーバで管理されており、その機能はWebブラウザを介して提供される。
For example, a monitoring screen is displayed on the
The functions of the monitoring app may be provided by installing the monitoring app on each terminal (i.e., a native app) or may be provided by a web system (i.e., a web app). In the case of a web app, the monitoring app is managed by a server, and its functions are provided via a web browser.
(6)表示装置40
表示装置40は、字幕を表示する装置である。表示装置40は、例えば、スクリーン41などのようなディスプレイ装置であってもよいし、スマートフォン42などのようなディスプレイを有する装置であってもよい。表示装置40は、音声処理装置20と通信可能に接続され、音声処理装置20から受信する画面情報に基づき字幕を表示する。
(6)
The
表示装置40には、例えば、字幕表示機能を利用するためのアプリケーション(以下、「字幕表示アプリ」とも称される)によって、字幕表示画面が表示される。聴講者は、字幕表示アプリによって表示装置40に表示される字幕表示画面を操作することで、同時通訳結果を示す字幕を確認することができる。
なお、字幕表示アプリの機能は、各装置に字幕表示アプリをインストールすること(即ちネイティブアプリ)で提供されてもよいし、Webシステム(即ちWebアプリ)によって提供されてもよい。Webアプリの場合、字幕表示アプリはサーバで管理されており、その機能はWebブラウザを介して提供される。
For example, a subtitle display screen is displayed on the
The function of the subtitle display application may be provided by installing the subtitle display application in each device (i.e., a native application), or may be provided by a Web system (i.e., a Web application). In the case of a Web application, the subtitle display application is managed by a server, and the function is provided via a Web browser.
<1-2.音声処理装置の機能構成>
以上、第1の実施形態に係る字幕表示システム1の構成について説明した。続いて、図2から図4を参照して、第1の実施形態に係る音声処理装置20の機能構成について説明する。図2は、第1の実施形態に係る音声処理装置20の機能構成の一例を示すブロック図である。
図2に示すように、音声処理装置20は、通信部210と、記憶部220と、第1制御部230と、第2制御部240とを備える。
<1-2. Functional configuration of the voice processing device>
The configuration of the
As shown in FIG. 2 , the
(1)通信部210
通信部210は、各種情報を送受信する機能を有する。通信部210は、集音装置10と、同時通訳エンジン21と、機械翻訳エンジン22と、モニタリング端末30と、表示装置40と通信可能に接続されており、各種情報を送受信する。
(1)
The
(2)記憶部220
記憶部220は、各種情報を記憶する機能を有する。記憶部220は、音声処理装置20がハードウェアとして備える記憶媒体、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)、又はこれらの記憶媒体の任意の組み合わせによって構成される。
(2)
The
記憶部220は、例えば、変換候補情報を記憶する。変換候補情報は、テキストデータの変換候補を示す情報である。変換候補情報には、チェッカーによる修正実績に基づき、変換候補となるテキストが蓄積される。
なお、変換候補は、例えば講演単位で蓄積される。変換候補は、講演の終了時に削除されてもよいし、蓄積したまま残されてもよい。蓄積されたまま残された変換候補は、他の講演に用いられてもよい。
The
The conversion candidates are stored, for example, on a lecture-by-lecture basis. The conversion candidates may be deleted when the lecture ends, or may remain stored. The conversion candidates that remain stored may be used for another lecture.
(3)第1制御部230
第1制御部230は、同時通訳に関する処理を制御する機能を有する。第1制御部230は、例えば、音声処理装置20がハードウェアとして備えるCPU(Central Processing Unit)又はGPU(Graphics Processing Unit)にプログラムを実行させることによって実現される。
図2に示すように、第1制御部230は、音声データ取得部231と、音声変換部232とを備える。
(3)
The
As shown in FIG. 2, the
(3-1)音声データ取得部231
音声データ取得部231は、音声データを取得する機能を有する。音声データ取得部231は、通信部210が集音装置10から受信する音声データを取得し、音声変換部232へ入力する。
(3-1) Voice
The voice
(3-2)音声変換部232
音声変換部232は、音声変換処理を実行する機能を有する。音声変換部232は、同時通訳エンジン21を用いて音声変換処理を実行する。音声変換処理にて、音声変換部232は、音声データ取得部231によって取得される、第1の言語による講演者の発話内容を示す音声データを同時通訳エンジン21へ入力し、同時通訳エンジン21から出力されるテキストデータを翻訳結果として取得する。これにより、音声変換部232は、第1の言語による講演者の発話内容を示す音声データを、同時通訳によって、第1の言語と異なる複数の第2の言語への翻訳結果を示すテキストデータに変換することができる。
音声変換部232は、音声変換処理によって得られた複数の第2の言語のテキストデータをモニタリング処理部241へ入力する。
(3-2)
The
The
(4)第2制御部240
第2制御部240は、モニタリングと字幕表示に関する処理を制御する機能を有する。第2制御部240は、例えば、音声処理装置20がハードウェアとして備えるCPU又はGPUにプログラムを実行させることによって実現される。
図2に示すように、第2制御部240は、モニタリング処理部241と、機械翻訳部242と、字幕処理部243とを備える。
(4)
The
As shown in FIG. 2, the
(4-1)モニタリング処理部241
モニタリング処理部241は、モニタリング処理を実行する機能を有する。モニタリング処理にて、モニタリング処理部241は、通信部210から画面情報をモニタリング端末30へ送信し、モニタリング端末30にモニタリング画面を表示する。モニタリング処理部241は、モニタリング端末30に表示されたモニタリング画面を介して、チェッカーからテキストデータの表示可否の選択操作と、テキストデータに対する修正操作とを受け付ける。
(4-1)
The
モニタリング処理部241は、音声変換部232から入力される複数の第2の言語のテキストデータのうち、モニタリングの対象として予め指定されている1つの言語のテキストデータをモニタリング画面に表示する。このため、モニタリング処理部241は、複数の第2の言語のうち指定された1つの第2の言語について、テキストデータに対する修正を受け付ける。
なお、モニタリングの対象として予め指定されている1つの言語は、例えばチェッカーが希望する言語である。第1の実施形態では、一例として、チェッカーが日本人であり、チェッカーが希望する言語が日本語であるとする。
The
Note that one language designated in advance as a target for monitoring is, for example, a language desired by the checker. In the first embodiment, as an example, it is assumed that the checker is Japanese and the language desired by the checker is Japanese.
モニタリング処理部241は、モニタリング画面に表示されたテキストデータについて、表示装置40への表示可否の選択操作を受け付けるためのUI(User Interface)をモニタリング画面に表示する。当該UIは、例えばボタンであるが、チェックボックス、プルダウンなどであってもよい。
モニタリング処理部241は、表示可否の選択操作を受け付けると、当該操作の対象であるテキストデータの字幕の表示を制御する。モニタリング処理部241の制御により、モニタリング画面にて表示可否に不可が選択されているテキストデータの字幕は表示装置40に表示されず、モニタリング画面にて表示可否に可能が選択されているテキストデータの字幕は表示装置40に表示される。
The
When the
モニタリング処理部241は、テキストデータを表示するためのUIをモニタリング画面に表示する。当該UIは、例えばテキストフィールドである。モニタリング処理部241は、モニタリング画面にて、テキストデータをテキストフィールドに表示し、当該テキストフィールドに対する操作によって表示可否の選択を受け付けてもよい。例えば、モニタリング処理部241は、テキストフィールドの内部が選択されると表示可否を不可に切り替え、テキストフィールドの内部を選択後にテキストフィールドの外部が選択されると表示可否を可能に切り替える。
The
また、モニタリング処理部241は、テキストデータが表示されたテキストフィールドに対する操作によって、テキストデータに対する修正操作を受け付ける。モニタリング処理部241は、例えば、チェッカーによってテキストフィールドの内部が選択されると、選択されたテキストフィールドに表示されているテキストデータに対する修正を受け付ける。チェッカーは、例えば手入力によってテキストデータを修正できる。
The
モニタリング処理部241は、モニタリング画面にて、テキストデータの修正箇所が選択されると修正箇所の近傍に変換候補を表示してもよい。モニタリング処理部241は、チェッカーによって変換候補から選択されたテキストを修正箇所に挿入する。このように、チェッカーは、手入力だけでなく、変換候補を選択することでテキストデータを修正することもできる。
When a portion of text data to be corrected is selected on the monitoring screen, the
なお、モニタリング処理部241は、修正前のテキストデータと修正後のテキストデータとを比較して差分として検出されるテキストのうち、変換候補にないテキストを新しく変換候補に追加する。この場合、モニタリング処理部241は、記憶部220に記憶されている変換候補情報に新しい変換候補を追加する。これにより、変換候補情報には、チェッカーによる修正実績に基づき、変換候補となるテキストが蓄積されていく。
The
テキストフィールドに表示されたテキストデータの修正が不要であり、表示可否に可能が選択された場合、モニタリング処理部241は、音声変換部232による音声変換処理によって得られた複数の第2の言語のテキストデータを字幕処理部243へ入力する。一方、テキストフィールドに表示されたテキストデータの修正が必要であり、表示可否に不可が選択された場合、モニタリング処理部241は、修正後のテキストデータを機械翻訳部242へ入力する。
If the text data displayed in the text field does not need to be corrected and "Yes" is selected for "Displayable", the
なお、表示装置40にて既に字幕が表示されているテキストデータの表示可否に不可が選択された場合、モニタリング処理部241は、不可が選択されたテキストデータの字幕を非表示にし、修正操作を受け付け可能とする。
When "no" is selected as the display option for text data for which subtitles are already displayed on the
ここで、図3を参照して、第1の実施形態に係るモニタリング画面について説明する。図3は、第1の実施形態に係るモニタリング画面の一例を示す図である。 Here, the monitoring screen according to the first embodiment will be described with reference to FIG. 3. FIG. 3 is a diagram showing an example of the monitoring screen according to the first embodiment.
図3に示すモニタリング画面G1のボタンB1、ボタンB2、及びプルダウンPDは、表示可否の自動選択に関する設定を行うためのUIである。ボタンB1は、表示可否として可能(○)を自動で選択することを設定するためのボタンである。ボタンB2は、表示可否として不可(×)を自動で選択することを設定するためのボタンである。プルダウンPDは、モニタリング画面G1にテキストデータが表示されてから表示可否を自動で選択するまでの所定の時間を設定するためのプルダウンである。
図3に示す例では、一例として、ボタンB1がオン、ボタンB2がオフ、所定の時間が3秒に設定されている。この場合、モニタリング画面にテキストデータが表示されてから3秒経過後に、表示可否として可能が自動で選択される。一方、ボタンB1がオフ、ボタンB2がオンであった場合、モニタリング画面にテキストデータが表示されてから3秒経過後に、表示可否として不可が自動で選択される。
The buttons B1, B2, and pull-down PD on the monitoring screen G1 shown in Fig. 3 are UIs for making settings related to automatic selection of display/non-display. The button B1 is a button for setting automatic selection of possible (o) as display/non-display. The button B2 is a button for setting automatic selection of not possible (x) as display/non-display. The pull-down PD is a pull-down for setting a predetermined time from when text data is displayed on the monitoring screen G1 until when display/non-display is automatically selected.
3, as an example, button B1 is on, button B2 is off, and the predetermined time is set to three seconds. In this case, "Yes" is automatically selected as the display possibility three seconds after the text data is displayed on the monitoring screen. On the other hand, if button B1 is off and button B2 is on, "No" is automatically selected as the display possibility three seconds after the text data is displayed on the monitoring screen.
図3のモニタリング画面G1のテキストフィールドF1~F4は、表示されたテキストデータをチェッカーが修正するためのUIである。モニタリング処理部241は、音声変換部232から入力される複数の第2の言語のテキストデータのうち、モニタリングの対象として予め指定されている1つの言語のテキストデータを、当該テキストフィールドに表示する。
図3に示す例では、一例として、4つの音声データから音声変換された4つのテキストデータが、それぞれテキストフィールドF1~F4に時系列で表示されている。
3 are UIs for the checker to correct the displayed text data. The
In the example shown in FIG. 3, four pieces of text data converted from four pieces of voice data are displayed in chronological order in text fields F1 to F4, respectively.
図3のモニタリング画面G1のボタンB3及びボタンB4は、チェッカーがテキストデータの表示可否を選択するためのUIである。ボタンB3は、表示可否として不可(×)を選択するためのボタンである。ボタンB4は、表示可否として可能(○)を選択するためのボタンである。ボタンB3及びボタンB4は、テキストフィールドFごとに表示される。なお、ボタンB3及びボタンB4の選択は、チェッカーによる選択だけでなく、所定の時間の経過後、テキストデータの修正開始時、テキストデータの修正後などに、モニタリング処理部241の制御によって切り替えられる場合もある。
Buttons B3 and B4 on the monitoring screen G1 in FIG. 3 are UIs that allow the checker to select whether or not to display the text data. Button B3 is a button for selecting "not possible" (x) as whether or not to display. Button B4 is a button for selecting "possible" (o) as whether or not to display. Buttons B3 and B4 are displayed for each text field F. Note that the selection of buttons B3 and B4 may not only be made by the checker, but may also be switched under the control of the
図3に示す例では、一例として、テキストフィールドF1~F4のそれぞれにボタンB3-1~B3-4と、ボタンB4-1~B4-4が表示されている。
テキストフィールドF1のボタンB3-1とボタンB4-1の例では、チェッカーによって、テキストフィールドF1に表示されているテキストデータが正確であり表示可能であると判定され、ボタンB4-1が選択されている。
テキストフィールドF2のボタンB3-2とボタンB4-2の例では、チェッカーによって、テキストフィールドF2に表示されているテキストデータの意味が通じないと判定され、ボタンB3-2が選択されている。
テキストフィールドF3のボタンB3-3とボタンB4-3の例では、チェッカーによって、テキストフィールドF3に表示されているテキストデータが正確であり表示可能であると判定され、ボタンB4-3が選択されている。
テキストフィールドF4のボタンB3-4とボタンB4-4の例では、チェッカーによって、テキストフィールドF4に表示されているテキストデータの修正必要かつ表示不可であると判定され、ボタンF3-4が選択されたが、テキストデータの修正後にモニタリング処理部241の制御によってボタンB4-4が選択されている。
In the example shown in FIG. 3, as an example, buttons B3-1 to B3-4 and buttons B4-1 to B4-4 are displayed in each of the text fields F1 to F4.
In the example of buttons B3-1 and B4-1 in text field F1, the checker has determined that the text data displayed in text field F1 is correct and can be displayed, and button B4-1 has been selected.
In the example of buttons B3-2 and B4-2 in text field F2, the checker determines that the meaning of the text data displayed in text field F2 is incomprehensible, and button B3-2 is selected.
In the example of buttons B3-3 and B4-3 in text field F3, the checker has determined that the text data displayed in text field F3 is correct and can be displayed, and button B4-3 has been selected.
In the example of buttons B3-4 and B4-4 in text field F4, the checker determined that the text data displayed in text field F4 needed to be corrected and could not be displayed, and button F3-4 was selected, but after the text data was corrected, button B4-4 was selected under the control of the
ここで、図4を参照して、第1の実施形態に係る修正操作手順について説明する。図4は、第1の実施形態に係る修正操作手順の一例を示す図である。図4には、テキストフィールドF5に表示されたテキストデータをチェッカーが修正する例が示されている。なお、ボタンB3-5とボタンB4-5では、初期選択としてボタンB4-5が選択されているものとする。 Now, referring to FIG. 4, the correction operation procedure according to the first embodiment will be described. FIG. 4 is a diagram showing an example of the correction operation procedure according to the first embodiment. FIG. 4 shows an example in which a checker corrects text data displayed in text field F5. Note that, between buttons B3-5 and B4-5, it is assumed that button B4-5 is selected as the initial selection.
図4に示すように、まず、チェッカーは、テキストフィールドF5に表示されたテキストデータを確認し、修正が必要であるためテキストフィールドF5の任意の位置を選択(タッチ)する(ステップS1)。図4に示す例では、修正箇所(位置P)が選択されたものとする。 As shown in FIG. 4, first, the checker checks the text data displayed in the text field F5, and since correction is required, selects (touches) any position in the text field F5 (step S1). In the example shown in FIG. 4, it is assumed that the correction location (position P) is selected.
チェッカーによるテキストフィールドF5の選択後、モニタリング処理部241は、テキストフィールドF5を選択状態(例えば太枠表示)にし、表示可否の選択をボタンB4-5からボタンB3-5へ切り替え、テキストフィールドF5の内部にカーソルKを表示し、修正箇所の近傍に変換候補を示すウィンドウW1を表示する(ステップS2)。カーソルKの位置が修正箇所からずれている場合、チェッカーは、カーソルKの位置を修正箇所へ移動する。
なお、テキストフィールドF5に表示されているテキストデータの字幕が既に表示装置40に表示されている場合、チェッカーによって修正箇所が選択されたタイミングで、テキストフィールドF5に表示されているテキストデータの字幕が非表示(削除)される。
After the checker selects the text field F5, the
In addition, if the subtitles of the text data displayed in text field F5 are already being displayed on
チェッカーは、修正対象のテキストを削除する(ステップS3)。図4に示す例では、チェッカーは、「連結」を示すテキストを削除している。 The checker deletes the text to be corrected (step S3). In the example shown in FIG. 4, the checker deletes the text indicating "concatenation."
チェッカーは、ウィンドウW1に示されている変換候補の中から、正しいテキストを選択する(ステップS4)。図4に示す例では、チェッカーは、「連携」を示すテキストを選択している。 The checker selects the correct text from among the conversion candidates shown in window W1 (step S4). In the example shown in FIG. 4, the checker selects the text indicating "linkage."
チェッカーによる正しいテキストの選択後、モニタリング処理部241は、テキストフィールドF5の内部の修正箇所に、選択されたテキストを挿入する(ステップS5)。なお、ウィンドウW1に表示されている変換候補の中に正しいテキストがない場合、チェッカーは、正しいテキストを修正箇所に手入力することができる。
After the checker selects the correct text, the
チェッカーは、修正が完了したため、テキストフィールドF5の外部を選択する(ステップS6)。これにより、モニタリング処理部241は、テキストフィールドF5を非選択状態に戻し(太枠表示の解除)、表示可否の選択をボタンB3-5からボタンB4-5へ切り替える。さらに、モニタリング処理部241は、修正後のテキストデータを機械翻訳部242へ入力する。
As the correction is complete, the checker selects the outside of text field F5 (step S6). As a result, the
(4-2)機械翻訳部242
機械翻訳部242は、機械翻訳処理を実行する機能を有する。機械翻訳部242は、機械翻訳エンジン22を用いて機械翻訳処理を実行する。機械翻訳処理にて、機械翻訳部242は、モニタリング処理部241によって修正されたテキストデータを機械翻訳エンジン22へ入力し、機械翻訳エンジン22から出力されるテキストデータを翻訳結果として取得する。これにより、機械翻訳部242は、修正後のテキストデータを、修正時に指定されなかった第2の言語に翻訳し、複数の第2の言語ごとに修正が反映された翻訳結果を示すテキストデータを取得することができる。
機械翻訳部242は、モニタリング処理によって得られた修正後のテキストデータと、機械翻訳処理によって得られた複数の第2の言語のテキストデータを字幕処理部243へ入力する。
(4-2)
The
The
(4-3)字幕処理部243
字幕処理部243は、字幕表示処理を実行する機能を有する。字幕表示処理にて、字幕処理部243は、音声変換部232によって変換されてモニタリング処理部241から入力される複数の第2の言語のテキストデータ、又は、機械翻訳部242から入力される複数の第2の言語のテキストデータを用いて、表示装置40に字幕を表示する。
モニタリング処理部241から入力される複数の第2の言語のテキストデータを用いる場合、字幕処理部243は、モニタリング処理にて修正が不要と判定された翻訳結果を示すテキストデータを字幕として表示装置40に表示することができる。一方、機械翻訳部242から入力される複数の第2の言語のテキストデータを用いる場合、字幕処理部243は、モニタリング処理にて修正が必要と判定され、修正が反映された翻訳結果を示すテキストデータを字幕として表示装置40に表示することができる。
(4-3)
The
When using text data in a plurality of second languages input from the
<1-3.処理の流れ>
以上、第1の実施形態に係る音声処理装置20の機能構成について説明した。続いて、図5を参照して、第1の実施形態に係る字幕表示システム1における処理の流れについて説明する。図5は、第1の実施形態に係る字幕表示システム1における処理の流れの一例を示すシーケンス図である。
<1-3. Processing flow>
The functional configuration of the
図5に示すように、まず、集音装置10は、集音した音声の音声データを音声処理装置20へ送信する(ステップS101)。音声処理装置20の音声データ取得部231は、通信部210が集音装置10から受信する音声データを取得する。
As shown in FIG. 5, first, the
次に、音声処理装置20の音声変換部232は、音声データ取得部231によって取得された音声データについて、同時通訳エンジン21へ同時通訳を依頼する(ステップS102)。音声変換部232は、通信部210を介して、音声データを同時通訳エンジン21へ送信する。
Next, the
次に、同時通訳エンジン21は、音声処理装置20から受信する音声データを同時通訳(音声認識及び機械翻訳)し、同時通訳の結果を音声処理装置20へ送信する(ステップS103)。同時通訳の結果は、複数の第2の言語のテキストデータである。
Next, the
次に、音声処理装置20のモニタリング処理部241は、モニタリング画面の表示処理を行う(ステップS104)。モニタリング処理部241は、通信部210を介して画面情報をモニタリング端末30へ送信し、モニタリング画面を表示させる。
Next, the
モニタリング端末30は、音声処理装置20から受信する画面情報に基づき、モニタリング画面を表示する(ステップS105)。
モニタリング画面の表示後、モニタリング端末30は、モニタリング画面にてチェッカーによるテキストデータの修正を受け付け、修正内容を示す修正情報を音声処理装置20へ送信する(ステップS106)。
The
After displaying the monitoring screen, the monitoring
モニタリング処理部241は、通信部210がモニタリング端末30から修正情報を受信するか否かに応じて、テキストデータの修正があるか否かを判定する(ステップS107)。修正がある場合(ステップS107/YES)、処理はステップS108へ進む。一方、修正がない場合(ステップS107/NO)、処理はステップS110へ進む。
The
処理がステップS108へ進んだ場合、音声処理装置20の機械翻訳部242は、チェッカーによって修正されたテキストデータについて、機械翻訳エンジン22へ機械翻訳を依頼する(ステップS108)。機械翻訳部242は、通信部210を介して、テキストデータを機械翻訳エンジン22へ送信する。
When the process proceeds to step S108, the
次に、機械翻訳エンジン22は、音声処理装置20から受信するテキストデータを機械翻訳し、機械翻訳の結果を音声処理装置20へ送信する(ステップS109)。機械翻訳の結果は、複数の第2の言語のテキストデータである。送信後、処理はステップS111へ進む。
Next, the
処理がステップS110へ進んだ場合、モニタリング処理部241は、テキストデータの表示可否を判定する(ステップS110)。表示可否が表示可能である場合(ステップS110/YES)、処理はステップS111へ進む。一方、表示可否が表示不可である場合(ステップS110/NO)、処理は終了する。
When the process proceeds to step S110, the
処理がステップS111へ進んだ場合、音声処理装置20の字幕処理部243は、字幕表示処理を実行する(ステップS111)。字幕処理部243は、通信部210を介して、複数の第2の言語のテキストデータを表示装置40へ送信する。
表示装置40は、音声処理装置20から受信する第2の言語のテキストデータを字幕として表示する。(ステップS112)。
When the process proceeds to step S111, the
The
以上、第1の実施形態に係る処理の流れについて説明した。
以上説明したように、第1の実施形態に係る音声処理装置20は、第1の言語によるユーザの発話内容を示す音声データを、同時通訳によって、第1の言語と異なる複数の第2の言語への翻訳結果を示すテキストデータに変換する音声変換部232と、複数の第2の言語のうち指定された1つの第2の言語について、テキストデータに対する修正を受け付けるモニタリング処理部241と、修正後のテキストデータを、修正時に指定されなかった第2の言語に翻訳し、複数の第2の言語ごとに修正が反映された翻訳結果を示すテキストデータを取得する機械翻訳部242と、を備える。
The process flow according to the first embodiment has been described above.
As described above, the
かかる構成により、多言語の同時通訳において、同時通訳結果に誤認識又は誤訳が含まれる場合、チェッカーは、翻訳語の多言語のうち1つの言語の同時通訳結果のみを修正するだけで、他の言語の同時通訳結果も修正することができる。
よって、第1の実施形態に係る音声処理装置20は、多言語の同時通訳における同時通訳結果を容易に修正することを可能とする。
With this configuration, in the case of simultaneous interpretation in multiple languages, if the simultaneous interpretation result contains a misrecognition or mistranslation, the checker can correct the simultaneous interpretation result in only one of the multiple languages of the translated word, and can also correct the simultaneous interpretation results in the other languages.
Therefore, the
また、講演者の発話内容の同時通訳結果に誤認識又は誤訳が含まれる場合、チェッカーは、同時通訳結果(字幕)が聴講者へ提示される前に誤認識又は誤訳を修正することができる。これにより、聴講者には、誤認識又は誤訳が含まれる同時通訳結果は提示されず、修正後の誤認識又は誤訳が含まれない同時通訳結果のみが提示される。
よって、第1の実施形態に係る音声処理装置20は、ユーザが同時翻訳の内容を正しく理解することを可能とする。
Furthermore, if the simultaneous interpretation of the speaker's speech contains a misrecognition or mistranslation, the checker can correct the misrecognition or mistranslation before the simultaneous interpretation result (subtitles) is presented to the audience. This ensures that the audience will not be shown the simultaneous interpretation result that contains the misrecognition or mistranslation, but only the corrected simultaneous interpretation result that does not contain the misrecognition or mistranslation.
Therefore, the
<<2.第2の実施形態>>
以上、第1の実施形態について説明した。続いて、図6から図12を参照して、第2の実施形態について説明する。第2の実施形態では、モニタリング画面におけるテキストデータの修正方法について、第1の実施形態とは異なる修正方法について説明する。以下では、第1の実施形態における説明と重複する説明については、適宜省略する。
なお、第2の実施形態では、講演者が発話する言語(第1の言語)が任意の1つの言語(例えば日本語)であり、多言語翻訳された字幕の言語(第2の言語)が任意の複数の言語(例えば日本語以外の言語)であるものとする。
<<2. Second embodiment>>
The first embodiment has been described above. Next, the second embodiment will be described with reference to Figs. 6 to 12. In the second embodiment, a method of correcting text data on a monitoring screen that is different from that in the first embodiment will be described. In the following, descriptions that overlap with those in the first embodiment will be omitted as appropriate.
In the second embodiment, the language spoken by the speaker (first language) is any one language (e.g., Japanese), and the language of the multilingual translated subtitles (second language) is any multiple languages (e.g., languages other than Japanese).
<2-1.字幕表示システムの構成>
図6を参照して、第2の実施形態に係る字幕表示システム1aの構成について説明する。図6は、第2の実施形態に係る字幕表示システム1aの構成の一例を示す図である。
図6に示すように、字幕表示システム1aは、集音装置10と、音声処理装置20aと、機械翻訳エンジン22と、音声認識エンジン23と、変換候補API(Application Programming Interface)24と、モニタリング端末30と、表示装置40とを備える。
<2-1. Configuration of subtitle display system>
A configuration of a
As shown in FIG. 6, the
(1)集音装置10
第2の実施形態に係る集音装置10は、第1の実施形態に係る集音装置10と同様であるため、その説明を省略する。
(1)
The
(2)音声処理装置20a
第2の実施形態に係る音声処理装置20aは、第1の実施形態に係る音声処理装置20と比較してモニタリング画面における修正方法が異なることにより、実行する処理が異なる。音声処理装置20aは、集音装置10から受信する音声データに基づき、音声変換処理、モニタリング処理、機械翻訳処理、字幕表示処理に加え、形態素解析処理、変換優先度処理、自動変換処理部をさらに行う。
(2)
The
(3)機械翻訳エンジン22
第2の実施形態に係る機械翻訳エンジン22は、第1の実施形態に係る機械翻訳エンジン22と同様であるため、その説明を省略する。
(3)
The
(4)音声認識エンジン23
音声認識エンジン23は、音声データに対する音声認識を行うエンジン(プログラム)である。音声認識エンジン23は、音声処理装置20aから入力される第1の言語の音声データを音声認識によって第1の言語のテキストデータに変換する。
なお、音声認識エンジン23の機能は、音声処理装置20aとは異なる装置又は端末によって提供されてもよいし、音声処理装置20aによって提供されてもよい。
(4)
The
The function of the
(5)変換候補API24
変換候補API24は、テキストデータの読みに対する変換候補を取得するAPIである。変換候補API24は、音声処理装置20aから入力される第1の言語のテキストデータの読みを示す情報に基づき、第1の言語のテキストデータの読みに対応する変換候補を取得する。
なお、変換候補API24の機能は、音声処理装置20aとは異なる装置又は端末によって提供されてもよいし、音声処理装置20aによって提供されてもよい。
(5)
The
The function of the
(6)モニタリング端末30
第2の実施形態に係るモニタリング端末30は、第1の実施形態に係るモニタリング端末30と同様であるため、その説明を省略する。
(6) Monitoring
The
(7)表示装置40
第2の実施形態に係る表示装置40は、第1の実施形態に係る表示装置40と同様であるため、その説明を省略する。
(7)
The
<2-2.音声処理装置の機能構成>
以上、第2の実施形態に係る字幕表示システム1aの構成について説明した。続いて、図7から図10を参照して、第2の実施形態に係る音声処理装置20aの機能構成について説明する。図7は、第2の実施形態に係る音声処理装置20aの機能構成の一例を示すブロック図である。
図7に示すように、音声処理装置20aは、通信部210aと、記憶部220aと、第1制御部230aと、第2制御部240aとを備える。
<2-2. Functional configuration of the voice processing device>
The configuration of the
As shown in FIG. 7, the
(1)通信部210a
通信部210aは、集音装置10と、機械翻訳エンジン22と、音声認識エンジン23と、変換候補API24と、モニタリング端末30と、表示装置40と通信可能に接続されており、各種情報を送受信する。
(1)
The
(2)記憶部220a
記憶部220aは、優先度情報も記憶する点が、第1の実施形態に係る記憶部220と異なる。優先度情報は、テキストデータが形態素解析によって分割された形態素単位での自動変換の優先度を示す情報である。当該優先度は、チェッカーによるモニタリングにおける過去の修正履歴に基づき算出される。
(2)
The
(3)第1制御部230a
図7に示すように、第1制御部230aは、音声データ取得部231aと、音声変換部232aとを備える。
(3)
As shown in FIG. 7, the
(3-1)音声データ取得部231a
第2の実施形態に係る音声データ取得部231aは、第1の実施形態に係る音声データ取得部231と同様であるため、その説明を省略する。
(3-1) Voice
The voice
(3-2)音声変換部232a
音声変換部232aは、同時通訳ではなく音声認識のみを行う点が第1の実施形態に係る音声変換部232と異なる。
音声変換部232aは、音声認識エンジン23を用いて音声変換処理として音声認識処理を実行する。音声認識処理にて、音声変換部232aは、音声データ取得部231aによって取得される、第1の言語による講演者の発話内容を示す音声データを音声認識エンジン23へ入力し、音声認識エンジン23から出力されるテキストデータを音声認識結果として取得する。これにより、音声変換部232aは、第1の言語によるユーザの発話内容を示す音声データを、音声認識によって、第1の言語によるユーザの発話内容を示すテキストデータに変換することができる。
音声変換部232aは、音声認識処理によって得られた第1の言語のテキストデータをモニタリング処理部241aへ入力する。
(3-2)
The
The
The
(4)第2制御部240a
図7に示すように、第2制御部240aは、モニタリング処理部241aと、機械翻訳部242aと、字幕処理部243aと、形態素解析部244と、変換優先度処理部245と、自動変換処理部246とを備える。
(4)
As shown in FIG. 7, the
(4-1)モニタリング処理部241a
モニタリング処理部241aは、モニタリング処理にて、モニタリング端末30に表示されたモニタリング画面を介して、チェッカーからテキストデータに対する修正操作を受け付けるが、テキストデータの表示可否の選択操作は受け付けない。また、モニタリング処理部241aは、モニタリング画面にて、テキストデータを複数のテキストに分割して表示し、分割されたテキスト単位でテキストデータに対する修正を受け付ける。このため、第1の実施形態と第2の実施形態とでは、モニタリング画面におけるテキストデータの修正方法が異なる。
(4-1)
During the monitoring process, the
モニタリング処理部241aは、テキストデータを表示するためのUIをモニタリング画面に表示する。当該UIは、例えばテキストフィールドである。モニタリング処理部241aは、モニタリング画面にて、1つのテキストデータについて複数のテキストフィールドを表示する。モニタリング処理部241aは、後述する形態素解析部244による形態素解析の結果に基づき、テキストデータを形態素単位のテキストに分割する。形態素単位は、例えば、品詞単位である。この場合、モニタリング処理部241aは、形態素解析部244がテキストデータを品詞単位で分割した結果を示す情報(以下、「品詞情報」とも称される)に基づき、テキストデータを品詞単位に分割する。品詞情報には、例えば、分割後のテキストと、各テキストの読みを示す情報が含まれる。
分割後、モニタリング処理部241aは、分割した複数のテキストをそれぞれのテキストフィールドに表示する。モニタリング処理部241aは、1つのテキストデータについて、複数のテキストフィールドごとに修正操作を受け付ける。これにより、チェッカーは、形態素単位でテキストデータを修正することができる。
The
After the division, the
モニタリング処理部241aは、モニタリング画面にて、テキストデータの修正対象となるテキストが選択されると、選択されたテキストの近傍に変換候補を表示する。モニタリング処理部241aは、変換候補API24を用いて、変換候補を取得する。モニタリング処理部241aは、形態素解析部244によって取得される品詞情報を変換候補API24へ入力し、変換候補API24から出力される変換候補を示す情報(以下、「変換候補情報」とも称される)を取得する。変換候補API24は、品詞情報に含まれるテキストの読みを参照し、同音異義語を変換候補として取得する。これにより、モニタリング処理部241aは、取得した変換候補情報に基づき、モニタリング画面に変換候補を表示することができる。
モニタリング画面に表示した変換候補が選択された場合、モニタリング処理部241aは、修正対象となるテキストを変換候補から選択されたテキストで置き換える。このように、チェッカーは、変換候補を選択することで、形態素単位でテキストデータを修正することができる。
When text to be corrected in the text data is selected on the monitoring screen, the
When a conversion candidate displayed on the monitoring screen is selected, the
なお、モニタリング処理部241aは、変換候補の表示と共に、テキストの入力フィールドも表示し、当該入力フィールドへのテキストの入力による修正も受け付ける。これにより、チェッカーは、例えば変換候補の中に適切な変換候補がない場合に、入力フィールドに適切なテキストを入力することで、テキストデータを適切に修正することができる。
The
モニタリング処理部241aは、モニタリング画面にテキストデータを表示する際に、当該テキストデータを過去の修正実績に基づき変換してから表示してもよい。例えば、表示対象となるテキストデータの中に、過去に別のテキストデータにて修正されたテキストに対応するテキストが含まれているとする。対応するテキストは、例えば、同音異義語である。この場合、モニタリング処理部241aは、表示対象のテキストデータで該当するテキストを過去に修正されたテキストに変換してから表示する。即ち、モニタリング処理部241aは、第1のテキストデータに対する修正の実施以降に行われる音声認識によって得られる第2のテキストデータを表示する際に、第1のテキストデータにて修正された第1のテキストと対応する第2のテキストが第2のテキストデータに含まれる場合、第2のテキストを修正後の第1のテキストに変換して表示する。
これにより、過去の修正実績があるテキストは、モニタリング処理部241aによって自動変換されるため、チェッカーによるモニタリングにおける負荷を軽減することができる。
When displaying text data on the monitoring screen, the
As a result, text that has been corrected in the past is automatically converted by the
モニタリング処理部241aは、モニタリング画面にて、音声データから変換されたテキストデータだけでなく、当該テキストデータが異なる言語に翻訳されたテキストデータも表示してよい。音声データから変換されたテキストデータがモニタリング画面にて修正された場合、モニタリング処理部241aは、機械翻訳エンジン22を用いて修正が反映された翻訳結果を示すテキストデータを取得し、取得したテキストデータで翻訳の表示を更新する。
なお、モニタリング処理部241aがモニタリング画面に表示する翻訳は、複数の第2の言語のうち、1つの言語の翻訳であってもよいし、複数の言語の翻訳であってもよい。
The
The translation that the
ここで、図8を参照して、第2の実施形態に係るモニタリング画面について説明する。図8は、第2の実施形態に係るモニタリング画面の一例を示す図である。 Here, the monitoring screen according to the second embodiment will be described with reference to FIG. 8. FIG. 8 is a diagram showing an example of the monitoring screen according to the second embodiment.
図8に示すモニタリング画面G2には、一例として、2つの音声データについて、音声認識処理が実行されたことで取得されたテキストデータと、それぞれのテキストデータに対する機械翻訳によって取得された翻訳結果とがそれぞれ表示されている。 The monitoring screen G2 shown in FIG. 8 displays, as an example, text data obtained by executing a voice recognition process for two pieces of voice data, and the translation results obtained by machine translation of each piece of text data.
1つ目の音声データは、例えば「かいしゃではしゃしょうをつけます」という発話内容を示す音声である。当該音声データは、音声変換部232aの音声認識処理によって、「会社では車掌をつけます」というテキストデータに変換される。モニタリング処理部241aは、当該テキストデータを、形態素解析の結果に基づき品詞単位に分割してからテキストフィールドF11に表示する。図8に示す例では、テキストデータが「会社」、「で」、「は」、「車掌」、「を」、「つけ」、「ます」の7つの品詞(単語)に分割されて、テキストフィールドF11に表示されている。
さらに、モニタリング処理部241aは、当該テキストデータが機械翻訳部242aによって翻訳された結果を示すテキストデータをテキストフィールドF12に表示する。図8に示す例では、テキストデータが「There is a conductor in the company.」に翻訳されて、テキストフィールドF12に表示されている。
なお、テキストフィールドF11に表示されているテキストデータは、ある任意の時刻T1~T2の間における講演者の発話内容を示す音声データが音声認識されたテキストデータであり、第1のテキストデータである。時刻T2は時刻T1よりも後の時刻であるとする。
テキストフィールドF12に表示されているテキストデータは、多言語翻訳の対象となる複数の言語(複数の第2の言語)のうち、予め設定された任意の言語への翻訳結果を示すテキストデータである。なお、第2の実施形態では、一例として、日本語から英語への翻訳結果が表示されるよう設定されているものとする。
The first voice data is, for example, a voice indicating the spoken content "The company provides a conductor." The voice data is converted into text data "The company provides a conductor" by the voice recognition process of the
Furthermore, the
The text data displayed in the text field F11 is text data obtained by performing voice recognition on speech data indicating the contents of a speech by a lecturer between certain arbitrary times T1 and T2, and is the first text data. Time T2 is assumed to be a time later than time T1.
The text data displayed in the text field F12 is text data showing the translation result into a preset arbitrary language among a plurality of languages (a plurality of second languages) that are the subject of multilingual translation. In the second embodiment, as an example, it is assumed that the translation result from Japanese to English is set to be displayed.
2つ目の音声データは、例えば「しゃしょうはおもにだいじなしきでつけます」という発話内容を示す音声である。当該音声データは、音声変換部232aの音声認識処理によって、「社章は主に大事な式でつけます」というテキストデータに変換される。モニタリング処理部241aは、当該テキストデータを、形態素解析の結果に基づき品詞単位に分割してからテキストフィールドF13に表示する。図8に示す例では、テキストデータが「社章」、「は」、「主に」、「大事」、「な」、「式」、「で」、「つけ」、「ます」の9つの品詞(単語)に分割されて、テキストフィールドF13に表示されている。
さらに、モニタリング処理部241aは、当該テキストデータが機械翻訳部242aによって翻訳された結果を示すテキストデータをテキストフィールドF14に表示する。図8に示す例では、テキストデータが「We put the company emblem mainly at important ceremonies.」に翻訳されて、テキストフィールドF14に表示されている。
なお、テキストフィールドF13に表示されているテキストデータは、ある任意の時刻T3~T4の間における講演者の発話内容を示す音声データが音声認識されたテキストデータであり、第2のテキストデータである。時刻T3は時刻T2よりも後の時刻であり、時刻T4は時刻T3よりも後の時刻であるとする。
The second voice data is, for example, a voice indicating the spoken content of "The company emblem is mainly attached with an important formula." The voice data is converted into text data of "The company emblem is mainly attached with an important formula" by the voice recognition process of the
Furthermore, the
The text data displayed in the text field F13 is text data obtained by performing voice recognition on the speech data indicating the contents of the speech of the speaker between any given times T3 and T4, and is the second text data. Time T3 is assumed to be later than time T2, and time T4 is assumed to be later than time T3.
ここで、図9を参照して、第2の実施形態に係る修正操作手順について説明する。図9は、第2の実施形態に係る修正操作手順の一例を示す図である。図9には、図8のテキストフィールドF11のテキストデータを修正する例が示されている。 Now, referring to FIG. 9, a correction operation procedure according to the second embodiment will be described. FIG. 9 is a diagram showing an example of a correction operation procedure according to the second embodiment. FIG. 9 shows an example of correcting the text data in the text field F11 in FIG. 8.
図9に示すように、まず、チェッカーは、テキストフィールドF11に表示されたテキストデータを確認し、修正が必要なテキストを選択(タッチ)する(ステップS11)。図9に示す例では、修正するテキストとして「車掌」が選択されたものとする。 As shown in FIG. 9, first, the checker checks the text data displayed in the text field F11 and selects (touches) the text that needs to be corrected (step S11). In the example shown in FIG. 9, it is assumed that "conductor" is selected as the text to be corrected.
チェッカーによるテキストの選択後、モニタリング処理部241aは、選択されたテキストの近傍に変換候補ウィンドウW11、テキストフィールドF15、追加ボタンB5、及び削除ボタンB6を表示する(ステップS12)。チェッカーは、変換候補ウィンドウW11に表示された変換候補の中から、修正に適切なテキストを選択する。変換候補の中に適切なテキストがない場合、チェッカーは、テキストフィールドF15(入力フィールド)に適切なテキストを入力し、追加ボタンB5を押下する。テキストフィールドF11で選択したテキストを削除したい場合、チェッカーは、削除ボタンB6を押下する。
なお、チェッカーによってテキストフィールドF11から選択されたテキストが自動変換されたテキストである場合、テキストフィールドF15には、自動変換前のテキストが表示される。この場合、チェッカーは、追加ボタンB5を押下することで、テキストフィールドF11で選択したテキストを自動変換前のテキストに戻すことができる。
After the checker selects the text, the
If the text selected by the checker from the text field F11 is automatically converted text, the text before the automatic conversion is displayed in the text field F15. In this case, the checker can return the text selected in the text field F11 to the text before the automatic conversion by pressing the Add button B5.
チェッカーによる修正操作後、モニタリング処理部241は、テキストフィールドF11で選択されたテキストを、修正後のテキストで表示する(ステップS13)。さらに、モニタリング処理部241aは、テキストフィールドF11に示す修正後のテキストデータが翻訳されたテキストデータを、テキストフィールドF12に表示する。
図9に示す例では、「車掌」が「社章」へ修正されている。これにより、図8に示す例では、2つ目の音声データの音声認識において「車掌」と認識されたテキストが、「社章」へ自動変換されてからテキストフィールドF13に表示されている。
After the checker makes the correction, the
In the example shown in Fig. 9, "Conductor" is corrected to "Company Emblem." As a result, in the example shown in Fig. 8, the text recognized as "Conductor" in the voice recognition of the second voice data is automatically converted to "Company Emblem" and then displayed in the text field F13.
(4-2)機械翻訳部242a
機械翻訳部242aは、音声変換部232aによる音声認識処理にて第1の言語の音声データから変換されたテキストデータを、第1の言語と異なる第2の言語に翻訳し、翻訳結果を示すテキストデータを取得する。これにより、機械翻訳部242aは、モニタリング画面に音声データから変換されたテキストデータと共に表示する、翻訳結果を示すテキストデータを取得することができる。
また、機械翻訳部242aは、モニタリング画面に表示されているテキストデータが修正されると、修正後のテキストデータを翻訳し、修正が反映された翻訳結果を示すテキストデータを取得する。これにより、機械翻訳部242aは、チェッカーがモニタリング画面にて修正後の翻訳を確認することが可能、かつそのまま字幕として表示装置40に表示することが可能な、修正が反映されたテキストデータを取得することができる。
(4-2)
The
Furthermore, when text data displayed on the monitoring screen is corrected, the
(4-3)字幕処理部243a
第2の実施形態に係る字幕処理部243aは、第1の実施形態に係る字幕処理部243と同様であるため、その説明を省略する。
(4-3)
The
(4-4)形態素解析部244
形態素解析部244は、形態素解析を行う機能を有する。形態素解析部244は、音声データから変換されたテキストデータに対して形態素解析を行う。形態素解析部244は、形態素解析により、テキストデータを例えば品詞単位で複数のテキストに分割する。
(4-4)
The
(4-5)変換優先度処理部245
変換優先度処理部245は、優先度情報に関する処理を行う機能を有する。優先度情報は、テキストの自動変換において変換に用いるテキストの優先度を示す情報である。優先度は、過去の修正履歴に基づき決定される。変換優先度処理部245は、モニタリング画面に表示されたテキストデータが修正された場合、修正内容に応じて優先度(重み)を変更する。
(4-5) Conversion
The conversion
ここで、図10を参照して、第2の実施形態に係る変換優先度の変更について説明する。図10は、第2の実施形態に係る変換優先度の変更の一例を示す図である。図10に示す左側の表は、変更前の優先度の一例を示し、右側の表は、変更後の優先度の一例を示している。 Here, referring to FIG. 10, a change in conversion priority according to the second embodiment will be described. FIG. 10 is a diagram showing an example of a change in conversion priority according to the second embodiment. The table on the left side of FIG. 10 shows an example of a priority before the change, and the table on the right side shows an example of a priority after the change.
図10に示す各表には、変換前のテキストと、変換後のテキストと、優先度(重み)とが優先度情報として示されている。当該優先度情報は、音声認識されたテキストデータに、変換前のテキストが含まれている場合、優先度が高い変換後のテキストに変換することを示している。
左側の表には、「公園」を「講演」に変換する優先度が「1.05」、「公園」を「公演」に変換する優先度が「1.00」、「公園」を「口演」に変換する優先度が「0.95」、「講演」を「公演」に変換する優先度が「1.00」であることが示されている。「公園」については複数の優先度情報が示されている。音声認識されたテキストデータに「公園」が含まれている場合、優先度が最も高い「講演」に自動変換される。
音声認識されたテキストデータがチェッカーによって修正されると、変換優先度処理部245は、優先度情報を変更する。例えば、音声認識されたテキストデータに「講演」が含まれており、チェッカーによって「講演」が「公演」に修正されたとする。この場合、変換優先度処理部245は、図10の左側に示す表を右側に示す表のように変更する。「講演」が「公演」に修正されたため、変換優先度処理部245は、「公演」に変換する優先度を上げ、「公演」以外に変換する優先度を下げている。
10, pre-conversion text, post-conversion text, and priority (weight) are shown as priority information. The priority information indicates that when pre-conversion text is included in speech-recognized text data, the pre-conversion text is converted to post-conversion text with a higher priority.
The table on the left shows that the priority of converting "park" to "lecture" is "1.05", the priority of converting "park" to "performance" is "1.00", the priority of converting "park" to "oral performance" is "0.95", and the priority of converting "lecture" to "performance" is "1.00". Multiple pieces of priority information are shown for "park". If "park" is included in the text data that has been speech-recognized, it is automatically converted to "lecture", which has the highest priority.
When the voice-recognized text data is corrected by the checker, the conversion
(4-6)自動変換処理部246
自動変換処理部246は、テキストの自動変換を行う機能を有する。自動変換処理部246は、複数のテキストに分割されたテキストデータが表示される前に、優先度情報を参照する。複数のテキストに自動変換の対象となるテキストが含まれる場合、自動変換処理部246は、過去の修正に用いられたテキストの中から優先度に応じたテキストを選択し、対象となるテキストを選択したテキストで変換する。過去の修正に用いられたテキストは、チェッカーが過去にテキストデータのテキストを修正した際の修正後のテキストであり、図10に示す優先度情報における変換後のテキストである。
自動変換処理部246が選択する優先度に応じたテキストは、例えば、優先度が最も高いテキストである。1つのテキストについて1つの優先度情報のみが存在する場合、自動変換処理部246は、当該優先度情報が示すテキストを選択し、自動変換を行う。1つのテキストについて複数の優先度情報が存在する場合、自動変換処理部246は、優先度が最も高い優先度情報が示すテキストを選択し、自動変換を行う。
(4-6) Automatic
The automatic
The text according to the priority selected by the automatic
<2-3.処理の流れ>
以上、第2の実施形態に係る音声処理装置20aの機能構成について説明した。続いて、図11から図12を参照して、第2の実施形態に係る処理の流れについて説明する。
<2-3. Processing flow>
The functional configuration of the
(1)字幕表示システム1aにおける処理の流れ
図11を参照して、第2の実施形態に係る字幕表示システム1aにおける処理の流れについて説明する。図11は、第2の実施形態に係る字幕表示システム1aにおける処理の流れの一例を示すシーケンス図である。
(1) Processing flow in the
図11に示すように、まず、集音装置10は、集音した音声の音声データを音声処理装置20aへ送信する(ステップS201)。音声処理装置20aの音声データ取得部231aは、通信部210aが集音装置10から受信する音声データを取得する。
As shown in FIG. 11, first, the
次に、音声処理装置20aの音声変換部232aは、音声変換処理を行う(ステップS202)。音声変換部232aは、通信部210aを介して、音声データ取得部231aによって取得された音声データを音声認識エンジン23へ送信し、音声認識を依頼する。音声認識エンジン23は、音声処理装置20aから受信する音声データを音声認識し、音声認識の結果を音声処理装置20aへ送信する。
Next, the
次に、音声処理装置20aの機械翻訳部242aは、機械翻訳処理を行う(ステップS203)。機械翻訳部242aは、通信部210aを介して、音声変換部232aによって取得されたテキストデータを機械翻訳エンジン22へ送信し、機械翻訳を依頼する。機械翻訳エンジン22は、音声処理装置20aから受信するテキストデータを機械翻訳し、機械翻訳の結果を音声処理装置20aへ送信する。
Next, the
次に、音声処理装置20aは、表示準備処理を行う(ステップS204)。表示準備処理は、モニタリング画面の表示を行うための準備処理である。表示準備処理の詳細は、後述する。
Next, the
次に、音声処理装置20aのモニタリング処理部241aは、モニタリング画面の表示処理を行う(ステップS205)。モニタリング処理部241aは、通信部210aを介して画面情報をモニタリング端末30へ送信し、モニタリング画面を表示させる。
Next, the
モニタリング端末30は、音声処理装置20aから受信する画面情報に基づき、モニタリング画面を表示する(ステップS206)。
モニタリング画面の表示後、モニタリング端末30は、モニタリング画面にてチェッカーによるテキストデータの修正を受け付け、修正内容を示す修正情報を音声処理装置20aへ送信する(ステップS207)。
The
After displaying the monitoring screen, the monitoring
モニタリング処理部241aは、通信部210aがモニタリング端末30から修正情報を受信するか否かに応じて、テキストデータの修正があるか否かを判定する(ステップS208)。修正がある場合(ステップS208/YES)、処理はステップS209へ進む。一方、修正がない場合(ステップS208/NO)、処理はステップS212へ進む。
The
処理がステップS209へ進んだ場合、音声処理装置20aの機械翻訳部242aは、機械翻訳処理を行う(ステップS209)。機械翻訳部242aは、通信部210aを介して、チェッカーによって修正されたテキストデータを機械翻訳エンジン22へ送信し、機械翻訳を依頼する。機械翻訳エンジン22は、音声処理装置20aから受信するテキストデータを機械翻訳し、機械翻訳の結果を音声処理装置20aへ送信する。
When the process proceeds to step S209, the
次に、モニタリング処理部241aは、モニタリング画面の更新処理を行う(ステップS210)。モニタリング処理部241aは、機械翻訳部242aによって取得される機械翻訳の結果に基づき、モニタリング画面の翻訳の表示を更新する。
Next, the
次に、音声処理装置20aの変換優先度処理部245は、優先度の更新を行う(ステップS211)。変換優先度処理部245は、通信部210aがモニタリング端末30から受信する修正情報に基づき、当該修正情報に対応する優先度情報の優先度を更新する。
Next, the conversion
処理がステップS212へ進んだ場合、音声処理装置20aの字幕処理部243aは、字幕表示処理を実行する(ステップS212)。字幕処理部243aは、通信部210aを介して、複数の第2の言語のテキストデータを表示装置40へ送信する。
表示装置40は、音声処理装置20aから受信する第2の言語のテキストデータを字幕として表示する。(ステップS213)。
When the process proceeds to step S212, the
The
(2)表示準備処理の流れ
図12を参照して、第2の実施形態に係る表示準備処理の流れについて説明する。図12は、第2の実施形態に係る表示準備処理の流れの一例を示すシーケンス図である。
(2) Flow of Display Preparation Processing A flow of the display preparation processing according to the second embodiment will be described with reference to Fig. 12. Fig. 12 is a sequence diagram showing an example of the flow of the display preparation processing according to the second embodiment.
図12に示すように、まず、音声処理装置20aの形態素解析部244は、音声変換部232aによって取得されたテキストデータに対して形態素解析を行う(ステップS301)。
As shown in FIG. 12, first, the
次に、音声処理装置20aの自動変換処理部246は、記憶部220aに記憶されている優先度情報を取得する(ステップS302)。
Next, the automatic
自動変換処理部246は、優先度情報を参照し、形態素解析されたテキストデータの中に、自動変換の優先度が高い品詞(テキスト)があるか否かを確認する(ステップS303)。自動変換の優先度が高い品詞がある場合(ステップS303/YES)、処理はステップS304へ進む。一方、自動変換の優先度が高い品詞がない場合(ステップS303/NO)、処理はステップS305へ進む。
The automatic
処理がステップS304へ進んだ場合、自動変換処理部246は、自動変換を行う(ステップS304)。自動変換後、処理はステップS305へ進む。
If the process proceeds to step S304, the automatic
処理がステップS305へ進んだ場合、音声処理装置20aのモニタリング処理部241aは、通信部210aを介して、形態素解析部244によって取得される品詞情報を変換候補API24へ送信する(ステップS305)。
When the process proceeds to step S305, the
変換候補API24は、音声処理装置20aから受信する品詞情報に基づき変換候補情報を取得し、音声処理装置20aへ送信する(ステップS306)。
The
なお、ステップS302からステップS306の処理は、ステップS301の形態素解析の結果をもとに、品詞単位(テキスト単位)で行われる。このため、全ての品詞について変換候補情報が取得されるまで、ステップS302からステップS306の処理は繰り返される。全ての品詞について変換候補情報が取得された場合、表示準備処理は終了する。 The processes from step S302 to step S306 are performed on a part-of-speech basis (text basis) based on the results of the morphological analysis in step S301. Therefore, the processes from step S302 to step S306 are repeated until conversion candidate information has been obtained for all parts of speech. When conversion candidate information has been obtained for all parts of speech, the display preparation process ends.
以上、第2の実施形態に係る処理の流れについて説明した。
以上説明したように、第2の実施形態に係る音声処理装置20aは、ユーザの発話内容を示す音声データを、音声認識によってテキストデータに変換する音声変換部232aと、テキストデータを複数のテキストに分割して表示し、分割されたテキスト単位でテキストデータに対する修正を受け付けるモニタリング処理部241aと、を備え、モニタリング処理部241aは、第1のテキストデータに対する修正の実施以降に行われる音声認識によって得られる第2のテキストデータを表示する際に、第1のテキストデータにて修正された第1のテキストと対応する第2のテキストが第2のテキストデータに含まれる場合、第2のテキストを修正後の第1のテキストに変換して表示させる。
The process flow according to the second embodiment has been described above.
As described above, the
かかる構成により、チェッカーがある音声データに対する音声認識にて発生した誤認識を修正すると、その修正以降に別の音声データに対する音声認識にて同一の誤認識が発生したとしても、正しいテキストに自動変換される。これにより、チェッカーは、同一の誤認識が発生するたびに同一の修正を行う必要がなくなる。
よって、第2の実施形態に係る音声処理装置20aは、音声認識における誤認識の修正作業にかかる負荷を軽減することを可能とする。
With this configuration, when the checker corrects a recognition error that occurred in speech recognition of certain speech data, even if the same recognition error occurs in speech recognition of other speech data after the correction, it is automatically converted into correct text. This eliminates the need for the checker to make the same correction every time the same recognition error occurs.
Therefore, the
また、講演者の発話内容の同時通訳結果に誤認識又は誤訳が含まれる場合、チェッカーは、同時通訳結果(字幕)が聴講者へ提示される前に誤認識又は誤訳を修正することができる。これにより、聴講者には、誤認識又は誤訳が含まれる同時通訳結果は提示されず、修正後の誤認識又は誤訳が含まれない同時通訳結果のみが提示される。
よって、第2の実施形態に係る音声処理装置20aは、ユーザが同時翻訳の内容を正しく理解することを可能とする。
Furthermore, if the simultaneous interpretation of the speaker's speech contains a misrecognition or mistranslation, the checker can correct the misrecognition or mistranslation before the simultaneous interpretation result (subtitles) is presented to the audience. This ensures that the audience will not be shown the simultaneous interpretation result that contains the misrecognition or mistranslation, but only the corrected simultaneous interpretation result that does not contain the misrecognition or mistranslation.
Therefore, the
<<3.変形例>>
以上、実施形態について説明した。続いて、上述した実施形態の変形例について説明する。なお、以下に説明する変形例は、単独で実施形態に適用されてもよいし、組み合わせで実施形態に適用されてもよい。また、変形例は、実施形態で説明した構成に代えて適用されてもよいし、実施形態で説明した構成に対して追加的に適用されてもよい。
<<3. Modified Examples>>
The embodiment has been described above. Next, modified examples of the above-mentioned embodiment will be described. The modified examples described below may be applied to the embodiment alone or in combination with each other. The modified examples may be applied in place of the configuration described in the embodiment, or may be applied in addition to the configuration described in the embodiment.
上述した第1の実施形態と第2の実施形態は、組み合わせて実施されてもよい。例えば、第1の実施形態のモニタリング画面には、第2の実施形態のモニタリング画面と同様に、翻訳が表示されてもよい。
また、第2の実施形態のモニタリング画面には、第1の実施形態のモニタリング画面と同様に、チェッカーからテキストデータの表示可否の選択操作を受け付け可能なUIが表示されてもよい。
The first and second embodiments described above may be implemented in combination. For example, the monitoring screen of the first embodiment may display a translation in the same manner as the monitoring screen of the second embodiment.
Furthermore, the monitoring screen of the second embodiment may display a UI capable of receiving a selection operation from the checker as to whether or not to display text data, similar to the monitoring screen of the first embodiment.
また、上述した第1の実施形態では、第1の言語が日本語以外のいずれかの言語であり、第2の言語が日本語を含む複数の言語である例について説明したが、かかる例に限定されない。例えば、第1の言語が日本語であり、第2の言語が日本語以外の言語であってもよい。
また、上述した第2の実施形態では、第1の言語が日本語であり、第2の言語が日本語以外の複数の言語である例について説明したが、かかる例に限定されない。例えば、第1の言語が日本語以外の言語であり、第2の言語が日本語を含む複数の言語であってもよい。
また、上述した各実施形態では、表示装置40には、第1の言語の字幕を表示可能であってもよい。
In the above-described first embodiment, an example is described in which the first language is a language other than Japanese and the second language is a plurality of languages including Japanese, but the present invention is not limited to such an example. For example, the first language may be Japanese and the second language may be a language other than Japanese.
In the above-described second embodiment, an example is described in which the first language is Japanese and the second language is a plurality of languages other than Japanese, but the present invention is not limited to such an example. For example, the first language may be a language other than Japanese and the second language may be a plurality of languages including Japanese.
In addition, in each of the above-described embodiments, the
以上、実施形態の変形例について説明した。
なお、上述した実施形態における字幕表示システム1,1a、及び音声処理装置20,20aの機能の一部又は全部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
The above describes the modified examples of the embodiment.
It should be noted that some or all of the functions of the
Additionally, "computer-readable recording medium" refers to portable media such as flexible disks, optical magnetic disks, ROMs, CD-ROMs, etc., and storage devices such as hard disks built into computer systems. Furthermore, "computer-readable recording medium" may also include devices that dynamically hold a program for a short period of time, such as a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line, and devices that hold a program for a certain period of time, such as volatile memory within a computer system that serves as a server or client in such cases.
Furthermore, the above program may be for realizing a part of the above-mentioned functions, or may be capable of realizing the above-mentioned functions in combination with a program already recorded in a computer system, or may be realized by using a programmable logic device such as an FPGA (Field Programmable Gate Array).
以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。 The above describes in detail an embodiment of the present invention with reference to the drawings, but the specific configuration is not limited to the above, and various design changes can be made without departing from the spirit of the present invention.
1,1a…字幕表示システム、10…集音装置、20,20a…音声処理装置、21…同時通訳エンジン、22…機械翻訳エンジン、23…音声認識エンジン、24…変換候補API、30…モニタリング端末、40…表示装置、41…スクリーン、42…スマートフォン、210,210a…通信部、220,220a…記憶部、230,230a…第1制御部、231,231a…音声データ取得部、232,232a…音声変換部、240,240a…第2制御部、241,241a…モニタリング処理部、242,242a…機械翻訳部、243,243a…字幕処理部、244…形態素解析部、245…変換優先度処理部、246…自動変換処理部 1, 1a...subtitle display system, 10...sound collection device, 20, 20a...sound processing device, 21...simultaneous interpretation engine, 22...machine translation engine, 23...speech recognition engine, 24...conversion candidate API, 30...monitoring terminal, 40...display device, 41...screen, 42...smartphone, 210, 210a...communication unit, 220, 220a...storage unit, 230, 230a...first control unit, 231, 231a...speech data acquisition unit, 232, 232a...speech conversion unit, 240, 240a...second control unit, 241, 241a...monitoring processing unit, 242, 242a...machine translation unit, 243, 243a...subtitle processing unit, 244...morpheme analysis unit, 245...conversion priority processing unit, 246...automatic conversion processing unit
Claims (9)
複数の前記第2の言語のうち指定された1つの前記第2の言語について、前記テキストデータに対する修正を受け付けるモニタリング処理部と、
修正後の前記テキストデータを、修正時に指定されなかった前記第2の言語に翻訳し、複数の前記第2の言語ごとに修正が反映された翻訳結果を示すテキストデータを取得する翻訳部と、
を備える音声処理装置。 a speech conversion unit that converts speech data indicating the contents of a user's speech in a first language into text data indicating a translation result into a plurality of second languages different from the first language by simultaneous interpretation;
a monitoring processing unit that accepts corrections to the text data for one designated second language among the plurality of second languages;
a translation unit that translates the corrected text data into the second language that was not specified at the time of correction, and obtains text data indicating a translation result in which the correction is reflected for each of the second languages;
An audio processing device comprising:
をさらに備える請求項1に記載の音声処理装置。 a subtitle processing unit that displays the text data indicating the translation result reflecting the correction as a subtitle on a display device;
The audio processing device of claim 1 further comprising:
請求項1に記載の音声処理装置。 the monitoring processing unit displays, on the monitoring terminal, a monitoring screen capable of accepting a correction operation for the text data converted from the voice data and a selection operation for whether or not to display the text data.
The audio processing device according to claim 1 .
請求項3に記載の音声処理装置。 Subtitles of the text data for which "cannot be displayed" is selected on the monitoring screen are not displayed on a display device, and subtitles of the text data for which "can be displayed" is selected on the monitoring screen are displayed on the display device.
The audio processing device according to claim 3 .
請求項3に記載の音声処理装置。 the monitoring processing unit displays the text data in a text field on the monitoring screen, switches the display enable/disable state to disabled when an inside of the text field is selected, and switches the display enable/disable state to enabled when an outside of the text field is selected after the inside of the text field is selected.
The audio processing device according to claim 3 .
請求項3に記載の音声処理装置。 When a portion of the text data to be corrected is selected on the monitoring screen, the monitoring processing unit displays conversion candidates near the portion of the text data to be corrected, and inserts text selected from the conversion candidates into the portion of the text data to be corrected.
The audio processing device according to claim 3 .
請求項6に記載の音声処理装置。 the monitoring processing unit adds, to the conversion candidates, text that is not included in the conversion candidates and is detected as a difference by comparing the text data before correction with the text data after correction.
The audio processing device according to claim 6.
複数の前記第2の言語のうち指定された1つの前記第2の言語について、前記テキストデータに対する修正を受け付けるモニタリング処理過程と、
修正後の前記テキストデータを、修正時に指定されなかった前記第2の言語に翻訳し、複数の前記第2の言語ごとに修正が反映された翻訳結果を示すテキストデータを取得する翻訳過程と、
を含むコンピュータにより実行される音声処理方法。 a speech conversion process for converting speech data representing the contents of a user's speech in a first language into text data representing the results of translation into a plurality of second languages different from the first language by simultaneous interpretation;
a monitoring process for receiving corrections to the text data for a specified one of the second languages;
a translation process of translating the corrected text data into the second language that was not specified at the time of correction, and acquiring text data indicating a translation result in which the correction is reflected for each of the second languages;
16. A computer-implemented method for audio processing comprising:
第1の言語によるユーザの発話内容を示す音声データを、同時通訳によって、前記第1の言語と異なる複数の第2の言語への翻訳結果を示すテキストデータに変換する音声変換手段と、
複数の前記第2の言語のうち指定された1つの前記第2の言語について、前記テキストデータに対する修正を受け付けるモニタリング処理手段と、
修正後の前記テキストデータを、修正時に指定されなかった前記第2の言語に翻訳し、複数の前記第2の言語ごとに修正が反映された翻訳結果を示すテキストデータを取得する翻訳手段と、
として機能させるためのプログラム。 Computer,
a speech conversion means for converting speech data representing the contents of a user's speech in a first language into text data representing the results of translation into a plurality of second languages different from the first language by simultaneous interpretation;
a monitoring processing means for receiving corrections to the text data for one designated second language among the plurality of second languages;
a translation means for translating the corrected text data into the second language that was not specified at the time of correction, and obtaining text data indicating a translation result in which the correction is reflected for each of the second languages;
A program to function as a
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024104877A JP7586367B1 (en) | 2024-06-28 | 2024-06-28 | Audio processing device, audio processing method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024104877A JP7586367B1 (en) | 2024-06-28 | 2024-06-28 | Audio processing device, audio processing method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP7586367B1 true JP7586367B1 (en) | 2024-11-19 |
| JP2026006104A JP2026006104A (en) | 2026-01-16 |
Family
ID=93518228
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024104877A Active JP7586367B1 (en) | 2024-06-28 | 2024-06-28 | Audio processing device, audio processing method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7586367B1 (en) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009122989A (en) | 2007-11-15 | 2009-06-04 | Junichi Shibuya | Translation apparatus |
| JP2016100023A (en) | 2014-11-26 | 2016-05-30 | ネイバー コーポレーションNAVER Corporation | Content participation translation apparatus and content participation translation method using the same |
| JP2017191959A (en) | 2016-04-11 | 2017-10-19 | 株式会社日立製作所 | Multilanguage voice translation system for tv conference system |
| US20220414349A1 (en) | 2019-07-22 | 2022-12-29 | wordly, Inc. | Systems, methods, and apparatus for determining an official transcription and speaker language from a plurality of transcripts of text in different languages |
-
2024
- 2024-06-28 JP JP2024104877A patent/JP7586367B1/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009122989A (en) | 2007-11-15 | 2009-06-04 | Junichi Shibuya | Translation apparatus |
| JP2016100023A (en) | 2014-11-26 | 2016-05-30 | ネイバー コーポレーションNAVER Corporation | Content participation translation apparatus and content participation translation method using the same |
| JP2017191959A (en) | 2016-04-11 | 2017-10-19 | 株式会社日立製作所 | Multilanguage voice translation system for tv conference system |
| US20220414349A1 (en) | 2019-07-22 | 2022-12-29 | wordly, Inc. | Systems, methods, and apparatus for determining an official transcription and speaker language from a plurality of transcripts of text in different languages |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2026006104A (en) | 2026-01-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| USRE49762E1 (en) | Method and device for performing voice recognition using grammar model | |
| US20210124562A1 (en) | Conversational user interface agent development environment | |
| CN107111516B (en) | Headless task completion within digital personal assistants | |
| JP5449633B1 (en) | Advertisement translation device, advertisement display device, and advertisement translation method | |
| TWI510965B (en) | Input method editor integration | |
| EP2835798B1 (en) | Interfacing device and method for supporting speech dialogue service | |
| US20160306784A1 (en) | Audio Onboarding Of Digital Content With Enhanced Audio Communications | |
| EA004352B1 (en) | Automated transcription system and method using two speech converting instances and computer-assisted correction | |
| US7742924B2 (en) | System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context | |
| JP2009140467A (en) | Method and system for providing and using editable personal dictionary | |
| JP4942970B2 (en) | Recovery from verb errors in speech recognition | |
| US20140365229A1 (en) | System and method for excerpt creation by designating a text segment using speech | |
| JP2003263188A (en) | Voice command interpretation apparatus and method having dialogue focus tracking function, and computer-readable recording medium recording the method | |
| US20180246954A1 (en) | Natural language content generator | |
| KR102353797B1 (en) | Method and system for suppoting content editing based on real time generation of synthesized sound for video content | |
| JP7792602B2 (en) | Web page processing device, web page processing method, and program | |
| JP7586367B1 (en) | Audio processing device, audio processing method, and program | |
| US20130179165A1 (en) | Dynamic presentation aid | |
| JP2026006258A (en) | Audio processing device, audio processing method, and program | |
| US11935539B1 (en) | Integrating voice controls into applications | |
| JP2008145769A (en) | Dialog scenario generation system, method and program | |
| KR102677498B1 (en) | Method, system, and computer readable record medium to search for words with similar pronunciation in speech-to-text records | |
| US20240046035A1 (en) | Program, file generation method, information processing device, and information processing system | |
| US11966562B2 (en) | Generating natural languages interface from graphic user interfaces | |
| EP3552114A1 (en) | Natural language content generator |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240628 |
|
| A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20240628 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241008 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241021 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7586367 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |