[go: up one dir, main page]

WO2026018464A1 - Voice processing device, voice processing method, and voice processing program - Google Patents

Voice processing device, voice processing method, and voice processing program

Info

Publication number
WO2026018464A1
WO2026018464A1 PCT/JP2024/037025 JP2024037025W WO2026018464A1 WO 2026018464 A1 WO2026018464 A1 WO 2026018464A1 JP 2024037025 W JP2024037025 W JP 2024037025W WO 2026018464 A1 WO2026018464 A1 WO 2026018464A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
section
separated
mixed
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
PCT/JP2024/037025
Other languages
French (fr)
Japanese (ja)
Inventor
博昭 諸橋
龍 相原
祥幹 三井
勝人 伊佐野
進也 田口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of WO2026018464A1 publication Critical patent/WO2026018464A1/en
Pending legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

Provided is a section detection unit (102) that detects, from time-series voice data, a mixed voice section that is a time range in which a mixed voice in which a plurality of voices is mixed is present. Also provided is a voice separation unit (103) that separates the mixed voice in the mixed voice section into the plurality of voices.

Description

音声処理装置、音声処理方法及び音声処理プログラムAudio processing device, audio processing method, and audio processing program

 本開示は、音声処理に関する。 This disclosure relates to audio processing.

 本開示に関連する技術として特許文献1の技術がある。特許文献1の技術は、複数の話者の音声が混合している音声信号を各話者の音声の音声信号に分離する。 Technology related to this disclosure is that of Patent Document 1. The technology in Patent Document 1 separates an audio signal containing a mixture of the voices of multiple speakers into audio signals for each speaker.

特許第6789455号公報Patent No. 6789455

 特許文献1の技術に代表される音声分離技術により出力される時系列信号では、処理歪が発生する。音声分離の後に別の処理(以下、後処理という)が行われる場合は、この処理歪が後処理に悪影響を及ぼす可能性がある。
 例えば、音声分離の後処理として音声認識が行われる場合は、処理歪によって音声認識精度が劣化することがある。
Processing distortion occurs in a time-series signal output by a speech separation technique such as that described in Patent Document 1. When another process (hereinafter referred to as post-processing) is performed after speech separation, this processing distortion may adversely affect the post-processing.
For example, when speech recognition is performed as a post-processing step after speech separation, processing distortion can degrade speech recognition accuracy.

 本開示は、音声分離による処理歪を低減することを主な目的とする。 The primary objective of this disclosure is to reduce processing distortion caused by audio separation.

 本開示に係る音声処理装置は、
 時系列の音声データから、複数の音声が混合している混合音声が存在する時間範囲である混合音声区間を検出する区間検出部と、
 前記混合音声区間の前記混合音声を前記複数の音声に分離する音声分離部とを有する。
The speech processing device according to the present disclosure includes:
a section detection unit that detects a mixed voice section, which is a time range in which a mixed voice containing a plurality of voices exists, from time-series voice data;
and a sound separating unit that separates the mixed sound in the mixed sound section into the plurality of sounds.

 本開示によれば、音声分離による処理歪を低減することができる。 This disclosure makes it possible to reduce processing distortion caused by audio separation.

実施の形態1に係る音声処理装置の機能構成例を示す図。FIG. 1 is a diagram showing an example of a functional configuration of a voice processing device according to a first embodiment. 実施の形態1に係る音声処理装置のハードウェア構成例を示す図。FIG. 1 is a diagram showing an example of a hardware configuration of a voice processing device according to a first embodiment. 実施の形態1に係る音声処理装置の動作例を示す図。FIG. 2 is a diagram showing an example of operation of the audio processing device according to the first embodiment. 実施の形態1に係る音声処理装置の動作例を示す図。FIG. 2 is a diagram showing an example of operation of the audio processing device according to the first embodiment. 実施の形態1に係る音声処理装置の動作例を示す図。FIG. 2 is a diagram showing an example of operation of the audio processing device according to the first embodiment. 実施の形態1に係る音声処理装置の動作例を示す図。FIG. 2 is a diagram showing an example of operation of the audio processing device according to the first embodiment. 実施の形態1に係る音声処理装置の動作例を示す図。FIG. 2 is a diagram showing an example of operation of the audio processing device according to the first embodiment. 実施の形態2に係る音声処理装置の機能構成例を示す図。FIG. 10 is a diagram showing an example of the functional configuration of a voice processing device according to a second embodiment. 実施の形態3に係る音声処理装置の機能構成例を示す図。FIG. 10 is a diagram showing an example of the functional configuration of a voice processing device according to a third embodiment. 実施の形態4に係る音声処理装置の機能構成例を示す図。FIG. 10 is a diagram showing an example of the functional configuration of a voice processing device according to a fourth embodiment. 実施の形態5に係る音声処理装置の機能構成例を示す図。FIG. 13 is a diagram showing an example of the functional configuration of a voice processing device according to a fifth embodiment. 実施の形態5に係る音声処理装置の動作例を示す図。FIG. 13 is a diagram showing an example of the operation of the audio processing device according to the fifth embodiment. 実施の形態6に係る音声処理装置の機能構成例を示す図。FIG. 13 is a diagram showing an example of the functional configuration of a voice processing device according to a sixth embodiment. 実施の形態6に係るモデル生成部の構成例を示す図。FIG. 20 is a diagram showing an example of the configuration of a model generation unit according to the sixth embodiment.

 以下、実施の形態を図を用いて説明する。以下の実施の形態の説明及び図面において、同一の符号を付したものは、同一の部分又は相当する部分を示す。 The following describes the embodiments using the drawings. In the following description of the embodiments and in the drawings, the same reference numerals indicate the same or corresponding parts.

 実施の形態1.
***構成の説明***
 図1は、本実施の形態に係る音声処理装置100の機能構成例を示す。
 また、図2は、本実施の形態に係る音声処理装置100のハードウェア構成例を示す。
 音声処理装置100は、コンピュータである。
 音声処理装置100は、音声分離の対象範囲を限定することで、音声分離による処理歪を低減する。
 より具体的には、音声処理装置100は、音声分離の対象範囲を複数の音声が混合している混合音声が存在する時間範囲に限定することで、音声分離による処理歪を低減する。
 なお、音声処理装置100の動作手順は、音声処理方法に相当する。また、音声処理装置100の動作を実現するプログラムは、音声処理プログラムに相当する。
Embodiment 1.
***Configuration Description***
FIG. 1 shows an example of the functional configuration of a voice processing device 100 according to this embodiment.
FIG. 2 shows an example of the hardware configuration of the audio processing device 100 according to this embodiment.
The audio processing device 100 is a computer.
The audio processing device 100 reduces processing distortion due to audio separation by limiting the target range of audio separation.
More specifically, the audio processing device 100 reduces processing distortion due to audio separation by limiting the target range of audio separation to a time range in which a mixed audio in which multiple audio components are mixed exists.
The operation procedure of the voice processing device 100 corresponds to a voice processing method, and the program that realizes the operation of the voice processing device 100 corresponds to a voice processing program.

 先ず、図2に示す音声処理装置100のハードウェア構成例を説明する。 First, we will explain an example of the hardware configuration of the audio processing device 100 shown in Figure 2.

 音声処理装置100は、ハードウェアとして、プロセッサ901、主記憶装置902、補助記憶装置903及び通信装置904を備える。
 また、音声処理装置100は、機能構成要素として、図1に示す特徴量抽出部101、区間検出部102、音声分離部103、音声復元部104及び音声接続部105を備える。図1の機能構成要素は、例えば、プログラムにより実現される。
 補助記憶装置903には、これらの機能を実現するプログラムが記憶されている。
 これらプログラムは、補助記憶装置903から主記憶装置902にロードされる。そして、プロセッサ901がこれらプログラムを実行して、図1の機能構成要素の動作を行う。
 図2は、プロセッサ901が図1の機能構成要素の機能を実現するプログラムを実行している状態を模式的に表している。
 また、図2には図示していないが、音声処理装置100が入出力装置を有していてもよい。
 入出力装置は、例えば、マウス、キーボード、記録媒体読み出し装置、記録媒体書き込み装置、ディスプレイ等である。
The audio processing device 100 includes, as hardware, a processor 901, a main memory device 902, an auxiliary memory device 903, and a communication device 904.
1 , the speech processing device 100 includes, as functional components, a feature extraction unit 101, a section detection unit 102, a speech separation unit 103, a speech restoration unit 104, and a speech connection unit 105. The functional components in FIG. 1 are realized, for example, by a program.
The auxiliary storage device 903 stores programs that realize these functions.
These programs are loaded from the auxiliary storage device 903 into the main storage device 902. The processor 901 then executes these programs to perform the operations of the functional components in FIG.
FIG. 2 shows a schematic diagram of a state in which a processor 901 is executing a program that implements the functions of the functional components of FIG.
Although not shown in FIG. 2, the audio processing device 100 may also have an input/output device.
The input/output device is, for example, a mouse, a keyboard, a recording medium reading device, a recording medium writing device, a display, and the like.

 次に、図1に示す音声処理装置100の機能構成例を説明する。 Next, an example of the functional configuration of the audio processing device 100 shown in Figure 1 will be described.

 特徴量抽出部101は、混合音声信号列200を取得する。特徴量抽出部101は、例えば、通信装置904を介して通信ネットワークから混合音声信号列200を取得する。また、特徴量抽出部101は、入出力装置の記録媒体読み出し装置から混合音声信号列200を取得してもよい。
 混合音声信号列200は、時系列の音声信号の信号列である。
 混合音声信号列200には、単一音声の音声信号が存在する時間範囲(以下、単一音声区間)と混合音声の音声信号が存在する時間範囲(以下、混合音声区間)が含まれる。
 単一音声とは、単一の話者の音声である。混合音声とは、複数の話者の複数の音声が混合している音声である。
The feature extraction unit 101 acquires the mixed audio signal sequence 200. For example, the feature extraction unit 101 acquires the mixed audio signal sequence 200 from a communication network via the communication device 904. Alternatively, the feature extraction unit 101 may acquire the mixed audio signal sequence 200 from a recording medium reading device of an input/output device.
The mixed audio signal sequence 200 is a signal sequence of time-series audio signals.
The mixed audio signal sequence 200 includes a time range in which a single audio signal exists (hereinafter referred to as a single audio section) and a time range in which a mixed audio signal exists (hereinafter referred to as a mixed audio section).
A single voice is a voice from a single speaker. A mixed voice is a voice that is a mixture of multiple voices from multiple speakers.

 特徴量抽出部101は、混合音声信号列200に含まれる音声信号の特徴を抽出する。例えば、特徴量抽出部101は、短時間フーリエ変換で得られる振幅スペクトルを特徴量として抽出する。また、特徴量抽出部101は、多層パーセプトロン、Conv1-D等のニューラルネットワークで得られる特徴量を抽出してもよい。
 そして、特徴量抽出部101は、抽出した特徴量が時系列で示される特徴量データ110を区間検出部102に出力する。特徴量データ110では、単一音声区間では単一音声の特徴量が示され、混合音声区間では混合音声の特徴量が示される。
 また、特徴量抽出部101は、混合音声信号列200を区間検出部102に出力する。
The feature extraction unit 101 extracts features of the audio signals included in the mixed audio signal sequence 200. For example, the feature extraction unit 101 extracts an amplitude spectrum obtained by a short-time Fourier transform as a feature. Alternatively, the feature extraction unit 101 may extract features obtained by a neural network such as a multilayer perceptron or Conv1-D.
The feature extraction unit 101 then outputs feature data 110, which indicates the extracted features in time series, to the section detection unit 102. The feature data 110 indicates the feature of a single voice in a single voice section, and indicates the feature of a mixed voice in a mixed voice section.
The feature extraction unit 101 also outputs the mixed speech signal sequence 200 to the segment detection unit 102 .

 区間検出部102は、特徴量抽出部101からの特徴量データ110を時系列の音声データとして取得する。
 そして、区間検出部102は、特徴量を解析して、特徴量データ110から、適用区間を検出する。適用区間は、混合音声区間と直前区間と直後区間で構成される。
 混合音声区間は、特徴量データ110において混合音声が存在する時間範囲である。
 直前区間は、特徴量データ110の時系列において混合音声区間の直前に位置し単一音声が存在する時間範囲である。
 直後区間は、特徴量データ110の時系列において混合音声区間の直後に位置し単一音声が存在する時間範囲である。
 区間検出部102は、適用区間特徴量120を音声分離部103に出力する。適用区間特徴量120は、適用区間の特徴量である。
 更に、区間検出部102は、混合音声信号列200と非混合音声区間定義情報1200を音声接続部105に出力する。
 非混合音声区間定義情報1200は、混合音声信号列200において非混合音声区間を定義する情報である。非混合音声区間は、混合音声信号列200での混合音声区間以外の区間である。具体的には、非混合音声区間は、前方区間と後方区間を含む。前方区間は、混合音声信号列200の時系列において混合音声区間の前方に位置する時間範囲である。後方区間は、混合音声信号列200の時系列において混合音声区間の後方に位置する時間範囲である。
 区間検出部102により行われる処理は区間検出処理に相当する。
The section detection unit 102 acquires the feature data 110 from the feature extraction unit 101 as time-series audio data.
Then, the section detection unit 102 analyzes the feature amount and detects an application section from the feature amount data 110. The application section is made up of a mixed voice section, an immediately preceding section, and an immediately following section.
The mixed voice section is a time range in the feature data 110 in which the mixed voice exists.
The immediately preceding section is a time range in which a single voice exists and is located immediately before the mixed voice section in the time series of the feature data 110 .
The immediately following section is a time range in which a single voice exists and which is located immediately after the mixed voice section in the time series of the feature data 110 .
The section detection unit 102 outputs the application section feature amount 120 to the audio separation unit 103. The application section feature amount 120 is a feature amount of the application section.
Furthermore, the section detection unit 102 outputs the mixed speech signal sequence 200 and the unmixed speech section definition information 1200 to the speech connection unit 105 .
The non-mixed voice section definition information 1200 is information that defines a non-mixed voice section in the mixed voice signal sequence 200. A non-mixed voice section is a section other than a mixed voice section in the mixed voice signal sequence 200. Specifically, a non-mixed voice section includes a forward section and a backward section. The forward section is a time range located before the mixed voice section in the time series of the mixed voice signal sequence 200. The backward section is a time range located after the mixed voice section in the time series of the mixed voice signal sequence 200.
The processing performed by the section detection unit 102 corresponds to section detection processing.

 音声分離部103は、区間検出部102から適用区間特徴量120を取得する。
 音声分離部103は、適用区間特徴量120を用いて、混合音声区間の混合音声の特徴量を混合音声に含まれる複数の音声の特徴量に分離する。このように、音声分離部103は、厳密には音声そのものではなく音声の特徴量を扱うが、説明の簡明化のため、音声分離部103が音声そのものを扱うものとして説明を行う場合がある。つまり、音声分離部103が混合音声の特徴量を複数の音声の特徴量に分離することを音声分離部103が混合音声を複数の音声に分離するとして説明を行うことがある。
 以下では、音声分離部103の分離により得られた複数の音声をそれぞれ分離音声という。「分離音声」という表現も音声分離部103の処理では厳密には分離音声の特徴量を意味する。また、後述する「前方接続分離音声」、「後方接続分離音声」、「直前単一音声」及び「直後単一音声」との表現も音声分離部103の処理では厳密にはそれぞれの音声の特徴量を意味する。
The audio separation unit 103 acquires the applied section feature 120 from the section detection unit 102 .
The audio separation unit 103 separates the feature of the mixed audio in the mixed audio section into feature of multiple audios included in the mixed audio using the application section feature 120. In this way, strictly speaking, the audio separation unit 103 handles the feature of the audio, not the audio itself, but for simplicity of explanation, the audio separation unit 103 may be described as handling the audio itself. In other words, separating the feature of the mixed audio into feature of multiple audios by the audio separation unit 103 may be described as the audio separation unit 103 separating the mixed audio into multiple audios.
Hereinafter, the multiple sounds obtained by separation by the sound separation unit 103 will be referred to as separated sounds. Strictly speaking, the expression "separated sounds" also means the feature quantities of the separated sounds in the processing by the sound separation unit 103. Furthermore, the expressions "forward connected separated sounds,""backward connected separated sounds,""previous single sounds," and "next single sounds," which will be described later, also strictly mean the feature quantities of the respective sounds in the processing by the sound separation unit 103.

 音声分離部103は、適用区間特徴量120を用いて、複数の分離音声から、前方接続分離音声を抽出する。前方接続分離音声は、直前単一音声と同じ音声であると推定される分離音声である。直前単一音声は、直前区間に存在する単一音声である。
 また、音声分離部103は、適用区間特徴量120を用いて、複数の分離音声から、後方接続分離音声を抽出する。後方接続分離音声は、直後単一音声と同じ音声であると推定される分離音声である。直後単一音声は、直後区間に存在する単一音声である。
 音声分離部103は、分離音声情報130を音声復元部104に出力する。分離音声情報130には、各分離音声の特徴量と、前方接続分離音声に該当する分離音声の識別子と、後方接続分離音声に該当する分離音声の識別子と、直前単一音声の特徴量と、直後単一音声の特徴量が含まれる。
 音声分離部103により行われる処理は音声分離処理に相当する。
The speech separation unit 103 extracts a forward connected separated speech from the plurality of separated speeches using the applied section feature 120. The forward connected separated speech is a separated speech that is estimated to be the same speech as the immediately preceding single speech. The immediately preceding single speech is a single speech that exists in the immediately preceding section.
Furthermore, the speech separation unit 103 extracts a backward-connected separated speech from the plurality of separated speeches using the applied section feature 120. The backward-connected separated speech is a separated speech that is estimated to be the same speech as the immediately following single speech. The immediately following single speech is a single speech that exists in the immediately following section.
The audio separation unit 103 outputs the separated audio information 130 to the audio restoration unit 104. The separated audio information 130 includes features of each separated audio, an identifier of the separated audio corresponding to the forward connected separated audio, an identifier of the separated audio corresponding to the backward connected separated audio, a feature of the immediately preceding single audio, and a feature of the immediately following single audio.
The processing performed by the audio separation unit 103 corresponds to audio separation processing.

 音声復元部104は、音声分離部103から分離音声情報130を取得する。
 音声復元部104は、分離音声情報130に含まれる各分離音声の特徴量から各分離音声の音声信号を復元する。また、音声復元部104は、直前単一音声の特徴量から直前単一音声の音声信号を復元する。また、音声復元部104は、直後単一音声の特徴量から直後単一音声の音声信号を復元する。
 そして、音声復元部104は、復元音声情報140を音声接続部105に出力する。復元音声情報140には、復元された各分離音声の音声信号と、復元された直前単一音声の音声信号と、復元された直後単一音声の音声信号と、前方接続分離音声に該当する分離音声の識別子と、後方接続分離音声に該当する分離音声の識別子とが含まれる。
The audio restoration unit 104 acquires the separated audio information 130 from the audio separation unit 103 .
The audio restoration unit 104 restores the audio signal of each separated audio from the feature of each separated audio included in the separated audio information 130. The audio restoration unit 104 also restores the audio signal of the immediately preceding single audio from the feature of the immediately preceding single audio. The audio restoration unit 104 also restores the audio signal of the immediately following single audio from the feature of the immediately following single audio.
Then, the audio restoration unit 104 outputs restored audio information 140 to the audio connection unit 105. The restored audio information 140 includes audio signals of each restored separated audio, an audio signal of the restored previous single audio, an audio signal of the restored next single audio, an identifier of the separated audio corresponding to the forward connected separated audio, and an identifier of the separated audio corresponding to the backward connected separated audio.

 音声接続部105は、区間検出部102から混合音声信号列200と非混合音声区間定義情報1200を取得する。
 また、音声接続部105は、音声復元部104から復元音声情報140を取得する。
 音声接続部105は、非混合音声区間定義情報1200及び復元音声情報140を用いて、分離音声の音声信号を混合音声信号列200内の単一音声の音声信号に接続する。
 より具体的には、音声接続部105は、前方接続分離音声の音声信号を前方単一音声の音声信号に接続する。前方単一音声は、前方区間に存在する単一音声である。音声接続部105は非混合音声区間定義情報1200を参照することで前方単一音声を識別可能である。
 また、音声接続部105は、後方接続分離音声の音声信号を後方単一音声の音声信号に接続する。後方単一音声は、後方区間に存在する単一音声である。音声接続部105は非混合音声区間定義情報1200を参照することで後方単一音声を識別可能である。
 音声接続部105は、音声信号の接続の結果、単一音声の音声信号のみで構成される分離音声信号列300を生成する。そして、音声接続部105は、分離音声信号列300を出力する。
 例えば、音声接続部105は、通信装置904を介して、混合音声信号列200の送信元に分離音声信号列300を送信する。また、音声接続部105は、入出力装置の記録媒体書き込み装置を介して分離音声信号列300を記録媒体に書き込んでもよい。
The audio connection unit 105 acquires the mixed audio signal sequence 200 and the unmixed audio segment definition information 1200 from the segment detection unit 102 .
Furthermore, the audio connection unit 105 acquires the restored audio information 140 from the audio restoration unit 104 .
The audio connection unit 105 uses the unmixed audio section definition information 1200 and the restored audio information 140 to connect the audio signal of the separated audio to the audio signal of the single audio in the mixed audio signal sequence 200 .
More specifically, the audio connection unit 105 connects the audio signal of the forward connected separated audio to the audio signal of the forward single audio. The forward single audio is a single audio present in the forward section. The audio connection unit 105 can identify the forward single audio by referring to the unmixed audio section definition information 1200.
The audio connection unit 105 also connects the audio signal of the backward connected separated audio to the audio signal of the backward single audio. The backward single audio is a single audio present in the backward section. The audio connection unit 105 can identify the backward single audio by referring to the unmixed audio section definition information 1200.
As a result of the concatenation of the audio signals, the audio concatenation unit 105 generates a separated audio signal sequence 300 that is composed of only audio signals of a single audio. The audio concatenation unit 105 then outputs the separated audio signal sequence 300.
For example, the audio connection unit 105 transmits the separated audio signal sequence 300 to the sender of the mixed audio signal sequence 200 via the communication device 904. The audio connection unit 105 may also write the separated audio signal sequence 300 to a recording medium via a recording medium writing device of the input/output device.

***動作の説明***
 次に、図3~図7を参照して、本実施の形態に係る音声処理装置100の動作例を説明する。
***Explanation of Operation***
Next, an example of the operation of the audio processing device 100 according to the present embodiment will be described with reference to FIGS.

 ここでは、図3の(a)に示す特徴量データ110が特徴量抽出部101により生成されたものとする。区間検出部102は、図3の(a)に示す特徴量データ110を取得する。
 図3の波形は、特徴量の時間推移を示す。
 なお、図3の(a)の破線の波形と実線の波形は、異なる話者の音声の特徴量を表す。
 図3の(a)の例では、符号1101に示すように、破線の波形の話者の発声中に実線の波形の話者が発声を開始し、一時的に両者の音声が混合している。その後、破線の波形の話者の発声が中断し、実線の波形の話者が発声を継続している。
Here, it is assumed that the feature data 110 shown in Fig. 3A is generated by the feature extraction unit 101. The section detection unit 102 acquires the feature data 110 shown in Fig. 3A.
The waveform in FIG. 3 shows the transition of the feature quantity over time.
The waveforms indicated by the dashed lines and the solid lines in FIG. 3A represent the features of the speech of different speakers.
In the example of Figure 3(a), the speaker represented by the dashed waveform starts speaking while the speaker represented by the solid waveform starts speaking, and the two voices are temporarily mixed together, as indicated by reference numeral 1101. After that, the speaker represented by the dashed waveform stops speaking, and the speaker represented by the solid waveform continues speaking.

 区間検出部102は、図3の(a)の特徴量データ110に示される特徴量を解析して、特徴量データ110から、音声が存在する時間範囲を音声区間121として検出する。
 ここでは、区間検出部102は、図3の(b)に示すように3つの音声区間121を検出したものとする。
 区間検出部102は、例えば以下の参考文献1に示す手法を用いることで音声区間121を検出することができる。区間検出部102は、参考文献1で示される学習データの構成を変更することで音声区間121を検出することができる。参考文献1では、ノイズと音声を識別する識別器が用いられている。参考文献1の識別器に代えて、非音声区間と音
声区間を識別する識別器を用いることで区間検出部102は音声区間121を検出することができる。
 参考文献1:国際公開WO2019162990A1
The section detection unit 102 analyzes the feature amounts indicated in the feature amount data 110 in FIG. 3A, and detects a time range in which speech exists from the feature amount data 110 as a speech section 121.
Here, it is assumed that the section detection unit 102 detects three voice sections 121 as shown in FIG. 3(b).
The section detection unit 102 can detect the speech section 121 by using, for example, the method described in the following reference 1. The section detection unit 102 can detect the speech section 121 by changing the configuration of the training data described in reference 1. Reference 1 uses a classifier that distinguishes between noise and speech. The section detection unit 102 can detect the speech section 121 by using a classifier that distinguishes between a non-speech section and a speech section instead of the classifier in reference 1.
Reference 1: International Publication WO2019162990A1

 次に、区間検出部102は、音声区間121から、適用区間125を検出する。適用区間125は、直前区間122と混合音声区間123と直後区間124とで構成される。
 混合音声区間123は、混合音声が存在する時間範囲である。
 直前区間122は、混合音声区間123の直前に位置し単一音声が存在する時間範囲である。
 直後区間124は、混合音声区間123の直後に位置し単一音声が存在する時間範囲である。
 区間検出部102は、以下に示す方法により混合音声区間123を検出する。そして、区間検出部102は、検出した混合音声区間123の直前の既定時間の範囲を直前区間122として検出する。更に、区間検出部102は、検出した混合音声区間123の直後の既定時間の範囲を直後区間124として検出する。
 この既定時間は区間検出部102により検出された区間の他の区間との位置関係により動的に設定することも可能とする。
 具体的には、混合音声区間123が短い時間で隣接している場合に、区間検出部102は、区間の情報を基に直前区間122と直後区間124が別の混合音声区間と被らないように設定する。
 既定時間を他の区間との位置関係により動的に設定することで、直前区間122や直後区間124に、別の混合音声区間の混合音声が誤って混入することが無くなるので、区間検出部102の検出精度を向上させることができる。
 なお、区間検出部102は、検出した混合音声区間123の位置と時間区間長とを図示しないディスプレイ等を用いてユーザに通知してもよい。更に、区間検出部102は、既定時間が変更された場合、既定時間が変更された区間の位置と変更後の既定時間とを図示しないディスプレイ等を用いてユーザに通知してもよい。ユーザは、例えば、発話者、音声処理装置100を操作するオペレータ等である。
Next, the section detection unit 102 detects an application section 125 from the voice section 121. The application section 125 is made up of a preceding section 122, a mixed voice section 123, and a following section .
The mixed voice section 123 is a time range in which the mixed voice exists.
The immediately preceding section 122 is a time range located immediately before the mixed voice section 123 and in which a single voice exists.
The immediately following section 124 is a time range located immediately after the mixed voice section 123 and in which a single voice exists.
The section detection unit 102 detects the mixed voice section 123 by the following method. Then, the section detection unit 102 detects a predetermined time range immediately before the detected mixed voice section 123 as the immediately preceding section 122. Furthermore, the section detection unit 102 detects a predetermined time range immediately after the detected mixed voice section 123 as the immediately following section 124.
This predetermined time can also be dynamically set depending on the positional relationship of the section detected by the section detection unit 102 with other sections.
Specifically, when mixed audio sections 123 are adjacent to each other at a short time, the section detection unit 102 sets the immediately preceding section 122 and the immediately following section 124 based on the section information so that they do not overlap with other mixed audio sections.
By dynamically setting the default time based on the positional relationship with other sections, mixed audio from another mixed audio section will not be mistakenly mixed into the immediately preceding section 122 or the immediately following section 124, thereby improving the detection accuracy of the section detection unit 102.
The section detection unit 102 may notify the user of the position and time section length of the detected mixed voice section 123 using a display (not shown) or the like. Furthermore, when the default time is changed, the section detection unit 102 may notify the user of the position of the section whose default time has been changed and the default time after the change using a display (not shown) or the like. The user is, for example, the speaker, an operator who operates the voice processing device 100, or the like.

混合音声区間123の検出方法(1)-ルールベース
 区間検出部102は、例えば、音声区間121において音声信号のパワーが急激に上がった点を混合音声区間123の開始点として検出する。また、区間検出部102は、音声信号のパワーが急激に下がった点を混合音声区間123の終端点として検出する。
Method (1) of detecting the mixed speech section 123—rule-based The section detection unit 102 detects, for example, a point where the power of the speech signal suddenly increases in the speech section 121 as the start point of the mixed speech section 123. The section detection unit 102 also detects a point where the power of the speech signal suddenly decreases as the end point of the mixed speech section 123.

混合音声区間123の検出方法(2)-ルールベース
 区間検出部102は、ゼロ交差点密度を用いて混合音声区間123を検出することもできる。
 音声区間121では音声信号のゼロ交差点密度が高くなる。この性質を利用して、区間検出部102は先ずゼロ交差点密度が閾値以上の時間範囲を音声区間121として検出する。また、混合音声区間123ではゼロ交差密度がさらに高くなると考えられる。このため、区間検出部102は、音声区間121においてゼロ交差密度が更に高くなっている時間範囲を混合音声区間123として検出する。
Method (2) for Detecting the Mixed Speech Section 123—Rule-Based The section detection unit 102 can also detect the mixed speech section 123 using the zero crossing point density.
The zero-crossing density of the speech signal is high in the speech section 121. Using this property, the section detection unit 102 first detects a time range in which the zero-crossing density is equal to or higher than a threshold as the speech section 121. It is also considered that the zero-crossing density will be even higher in the mixed speech section 123. For this reason, the section detection unit 102 detects a time range in the speech section 121 in which the zero-crossing density is even higher as the mixed speech section 123.

混合音声区間123の検出方法(3)-統計ベース
 区間検出部102は、GMM(Gaussian Mixture Model)を学習して混合音声区間123を検出してもよい。
 例えば、区間検出部102は、ノイズGMMと音声GMMを学習し、それぞれの学習結果の尤度を比較して、音声区間121を検出する。
 更に、区間検出部102は、ノイズGMM、単一音声GMM及び複数音声GMMを学習し、それぞれの学習結果の尤度を比較して、混合音声区間123を検出する。
 GMMを用いる以外に、区間検出部102は、歪度等の高次元特徴量を用いて音声区間
121と混合音声区間123を検出することができる。
 また、区間検出部102は、HMM(Hidden Markov Model)を構成してもよい。
Method (3) for Detecting the Mixed Voice Section 123—Statistical Base The section detection unit 102 may detect the mixed voice section 123 by learning a GMM (Gaussian Mixture Model).
For example, the section detection unit 102 learns a noise GMM and a speech GMM, compares the likelihood of each learning result, and detects the speech section 121 .
Furthermore, the section detection unit 102 learns the noise GMM, the single-voice GMM, and the multiple-voice GMM, and compares the likelihood of each learning result to detect the mixed voice section 123 .
In addition to using the GMM, the section detection unit 102 can detect the voice section 121 and the mixed voice section 123 using high-dimensional features such as skewness.
The section detection unit 102 may also configure a Hidden Markov Model (HMM).

混合音声区間123の検出方法(4)-ニューラルネットワークベース
 また、区間検出部102は、ニューラルネットワークベースを用いて混合音声区間123を検出してもよい。
 例えば、区間検出部102は、多層パーセプトロン、RNN(Recurrent Neural Network)、LSTM( Long Short Term Memory)等を用いた学習により音声区間121及び混合音声区間123を検出する。
Method (4) for Detecting the Mixed Voice Section 123—Neural Network Based The section detection unit 102 may also detect the mixed voice section 123 using a neural network based method.
For example, the segment detection unit 102 detects the speech segment 121 and the mixed speech segment 123 by learning using a multi-layer perceptron, a recurrent neural network (RNN), a long short term memory (LSTM), or the like.

 区間検出部102は、上記の検出方法を組み合わせて用いることができる。
 例えば、区間検出部102は、検出方法(3)と検出方法(4)とを組み合わせることができる。この場合は、区間検出部102は、統計ベースの尤度とニューラルネットワークから得られた尤度とを足し合わせて音声区間121及び混合音声区間123を検出する。
 また、区間検出部102は、検出した区間の長さが設定した閾値よりも短い場合にその区間を後続の処理の対象外にしても良い。閾値は、予め設定された時間区間長であり、通常の音声波形よりも短い値に設定される。区間検出部102が、この閾値よりも短い区間を検出した場合、ノイズなどの音声以外の信号を誤って検出した可能性がある。閾値よりも短い区間を後続の処理の対象外にすることで、不要な音声分離処理が行われることが抑制される。このため、処理量が低減すると共に不要な音声分離処理による波形歪を低減することができる。
The section detection unit 102 can use a combination of the above detection methods.
For example, the section detection unit 102 can combine detection method (3) and detection method (4). In this case, the section detection unit 102 detects the voice section 121 and the mixed voice section 123 by adding together the statistical-based likelihood and the likelihood obtained from the neural network.
Furthermore, the section detection unit 102 may exclude a detected section from subsequent processing if the length of the detected section is shorter than a set threshold. The threshold is a preset time section length, and is set to a value shorter than a normal audio waveform. If the section detection unit 102 detects a section shorter than this threshold, there is a possibility that a signal other than audio, such as noise, has been mistakenly detected. By excluding sections shorter than the threshold from subsequent processing, unnecessary audio separation processing is prevented. This reduces the amount of processing and waveform distortion due to unnecessary audio separation processing.

 区間検出部102は、以上のようにして検出された適用区間125の特徴量である適用区間特徴量120を音声分離部103に出力する。 The section detection unit 102 outputs the application section feature 120, which is the feature of the application section 125 detected as described above, to the audio separation unit 103.

 音声分離部103は、適用区間特徴量120を用いて、混合音声区間123の混合音声を複数の分離音声に分離する。
 音声分離部103は、例えば特許文献1の手法を用いることで混合音声を複数の分離音声に分離することができる。また、音声分離部103は、特許文献1に記載の音声分離モデルを学習して混合音声を複数の分離音声に分離してもよい。
 また、音声分離部103は、適用区間特徴量120を用いて、複数の分離音声から、前方接続分離音声と後方接続分離音声を抽出する。
The speech separation unit 103 separates the mixed speech in the mixed speech section 123 into a plurality of separated speeches using the application section feature 120 .
The audio separation unit 103 can separate the mixed audio into a plurality of separated audios by using, for example, the technique described in Patent Document 1. Alternatively, the audio separation unit 103 may separate the mixed audio into a plurality of separated audios by learning the audio separation model described in Patent Document 1.
Furthermore, the audio separation unit 103 uses the applied section feature 120 to extract forward connected separated audio and backward connected separated audio from the plurality of separated audios.

 図4の(b)は、分離音声情報130が図4の(a)に示す混合音声区間123の混合音声(破線の音声と実線の音声の混合)を、分離音声に分離している状態を示す。
 分離音声126は、混合音声区間123の混合音声から分離した破線の音声である。分離音声127は混合音声から分離した実線の音声である。
 また、分離音声126は、直前単一音声128と同じ音声であると推定され、前方接続分離音声に該当する。音声分離部103は特徴量において分離音声126が直後単一音声129よりも直前単一音声128に類似するため分離音声126と直前単一音声128とが同じ音声であると推定する。
 また、分離音声127は、直後単一音声129と同じ音声であると推定され、後方接続分離音声に該当する。音声分離部103は特徴量において分離音声127が直前単一音声128よりも直後単一音声129に類似するため分離音声127と直後単一音声129とが同じ音声であると推定する。
 音声分離部103は、分離音声情報130を音声復元部104に出力する。
 分離音声情報130には、前述のように、分離音声126及び分離音声127の特徴量と、前方接続分離音声に該当する分離音声126の識別子と、後方接続分離音声に該当す
る分離音声127の識別子と、直前単一音声128の特徴量と、直後単一音声129の特徴量が含まれる。
FIG. 4B shows a state in which the separated audio information 130 separates the mixed audio (a mixture of the audio indicated by the dashed lines and the audio indicated by the solid lines) in the mixed audio section 123 shown in FIG. 4A into separated audio.
Separated speech 126 is speech indicated by a dashed line that has been separated from the mixed speech in the mixed speech section 123. Separated speech 127 is speech indicated by a solid line that has been separated from the mixed speech.
Furthermore, the separated speech 126 is estimated to be the same speech as the immediately preceding single speech 128, and corresponds to forward connected separated speech. The speech separation unit 103 estimates that the separated speech 126 and the immediately preceding single speech 128 are the same speech because the separated speech 126 is more similar to the immediately preceding single speech 128 in terms of features than the immediately following single speech 129.
Furthermore, the separated speech 127 is estimated to be the same speech as the immediately following single speech 129, and corresponds to backward-connected separated speech. The speech separation unit 103 estimates that the separated speech 127 and the immediately following single speech 129 are the same speech because the separated speech 127 is more similar to the immediately following single speech 129 than to the immediately preceding single speech 128 in terms of features.
The audio separation unit 103 outputs the separated audio information 130 to the audio restoration unit 104 .
As described above, the separated audio information 130 includes the features of the separated audio 126 and the separated audio 127, an identifier of the separated audio 126 corresponding to the forward connected separated audio, an identifier of the separated audio 127 corresponding to the backward connected separated audio, the features of the immediately preceding single audio 128, and the features of the immediately following single audio 129.

 音声復元部104は、分離音声情報130に基づき、分離音声126及び分離音声127の音声信号を復元する。また、音声復元部104は、直前単一音声128の特徴量から直前単一音声128の音声信号を復元する。また、音声復元部104は、直後単一音声129の特徴量から直後単一音声129の音声信号を復元する。
 音声復元部104は、復元音声情報140を音声接続部105に出力する。
 前述したように、復元音声情報140には、復元された分離音声126及び分離音声127の音声信号と、復元された直前単一音声128の音声信号と、復元された直後単一音声129の音声信号と、前方接続分離音声に該当する分離音声126の識別子と、後方接続分離音声に該当する分離音声127の識別子が含まれる。
The audio restoration unit 104 restores the audio signals of the separated audio 126 and the separated audio 127 based on the separated audio information 130. The audio restoration unit 104 also restores the audio signal of the immediately preceding single audio 128 from the feature of the immediately preceding single audio 128. The audio restoration unit 104 also restores the audio signal of the immediately following single audio 129 from the feature of the immediately following single audio 129.
The audio restoration unit 104 outputs the restored audio information 140 to the audio connection unit 105 .
As described above, the restored audio information 140 includes audio signals of the restored separated audio 126 and the separated audio 127, an audio signal of the restored previous single audio 128, an audio signal of the restored next single audio 129, an identifier of the separated audio 126 corresponding to the forward connected separated audio, and an identifier of the separated audio 127 corresponding to the backward connected separated audio.

 図4の(a)では、前方区間1201と後方区間1202が示される。前方区間1201は、混合音声区間123の前方に位置する単一音声が存在する区間である。後方区間1202は、混合音声区間123の後方に位置する単一音声が存在する区間である。非混合音声区間定義情報1200では、非混合音声区として、前方区間1201と後方区間1202が定義されている。
 音声接続部105は、図4の(c)に示すように、非混合音声区間定義情報1200を参照し、混合音声信号列200で、前方区間1201の音声信号である前方単一音声信号201と、後方区間1202の音声信号である後方単一音声信号202を識別する。そして、音声接続部105は、前方接続分離音声126の音声信号を前方単一音声信号201の末尾(直前単一音声128に相当する部分)に接続する。また、音声接続部105は、後方接続分離音声127の音声信号を後方単一音声信号202の先頭(直後単一音声129に相当する部分)に接続する。
4A shows a front section 1201 and a rear section 1202. The front section 1201 is a section in which a single voice exists and is located before the mixed voice section 123. The rear section 1202 is a section in which a single voice exists and is located after the mixed voice section 123. In the non-mixed voice section definition information 1200, the front section 1201 and the rear section 1202 are defined as non-mixed voice sections.
4C, the audio connection unit 105 refers to the non-mixed audio section definition information 1200 and identifies a forward single audio signal 201, which is the audio signal of a forward section 1201, and a backward single audio signal 202, which is the audio signal of a backward section 1202, in the mixed audio signal sequence 200. Then, the audio connection unit 105 connects the audio signal of the forward connected separated audio 126 to the end of the forward single audio signal 201 (the part corresponding to the immediately preceding single audio 128). In addition, the audio connection unit 105 connects the audio signal of the backward connected separated audio 127 to the beginning of the backward single audio signal 202 (the part corresponding to the immediately following single audio 129).

 なお、音声接続部105は、直前単一音声128の音声信号と、前方単一音声信号201の末尾部分とが類似するか否かを判定してもよい。この場合は、直前単一音声128の音声信号と前方単一音声信号201の末尾部分とが類似すれば、音声接続部105は、前方接続分離音声126の音声信号を直前単一音声信号201の末尾に接続する。
 同様に、音声接続部105は、直後単一音声129の音声信号と、後方単一音声信号202の先頭部分とが類似するか否かを判定してもよい。この場合は、直後単一音声129の音声信号と後方単一音声信号202の先頭部分とが類似すれば、音声接続部105は、後方接続分離音声127の音声信号を後方単一音声信号202の先頭に接続する。
 音声接続部105は、例えば、相関関数、平均二乗誤差等の手法により類似性を判定する。
 話者数が3以上の場合は、音声接続部105は前方単一音声信号201の末尾部分と最も類似する直前単一音声128を持つ分離音声を前方接続分離音声126として識別する。そして、音声接続部105は、前方接続分離音声126の音声信号を直前単一音声信号201の末尾に接続する。
 同様に、音声接続部105は後方単一音声信号202の先頭部分と最も類似する直後単一音声129を持つ分離音声を後方接続分離音声127として識別する。そして、音声接続部105は、後方接続分離音声127の音声信号を後方単一音声信号202の先頭に接続する。
The audio connection unit 105 may determine whether the audio signal of the previous single audio 128 is similar to the tail portion of the forward single audio signal 201. In this case, if the audio signal of the previous single audio 128 is similar to the tail portion of the forward single audio signal 201, the audio connection unit 105 connects the audio signal of the forward connected and separated audio 126 to the tail of the previous single audio signal 201.
Similarly, the audio connection unit 105 may determine whether the audio signal of the immediately following single audio 129 is similar to the beginning portion of the following single audio signal 202. In this case, if the audio signal of the immediately following single audio 129 is similar to the beginning portion of the following single audio signal 202, the audio connection unit 105 connects the audio signal of the following connected separated audio 127 to the beginning of the following single audio signal 202.
The audio concatenation unit 105 determines the similarity using a method such as a correlation function or a mean square error.
If the number of speakers is three or more, the audio connection unit 105 identifies the separated audio having the immediately preceding single audio 128 that is most similar to the tail portion of the immediately preceding single audio signal 201 as the forward connected separated audio 126. Then, the audio connection unit 105 connects the audio signal of the forward connected separated audio 126 to the tail of the immediately preceding single audio signal 201.
Similarly, the audio splicing unit 105 identifies the separated audio having the immediately following single audio 129 that is most similar to the beginning portion of the backward single audio signal 202 as the backward connected separated audio 127. Then, the audio splicing unit 105 splices the audio signal of the backward connected separated audio 127 to the beginning of the backward single audio signal 202.

 図4の(c)の例では、音声接続部105は、前方接続分離音声126の音声信号の前方単一音声信号201への接続と、後方接続分離音声127の音声信号の後方単一音声信号202への接続は、異なる音声出力チャネルで行っている。
 なお、本実施の形態では、いずれの音声信号がいずれの話者の音声の音声信号であるかを判別しない。このため、図4の(c)の下段で示されるように、異なる話者の音声の音声信号である実線の音声信号と破線の音声信号2020が同一の音声出力チャネルで出力されることがある。
In the example of (c) of Figure 4, the audio connection unit 105 connects the audio signal of the forward connection separated audio 126 to the forward single audio signal 201 and the audio signal of the backward connection separated audio 127 to the backward single audio signal 202 using different audio output channels.
In this embodiment, it is not determined which audio signal is the audio signal of which speaker. Therefore, as shown in the lower part of (c) of Fig. 4, audio signals of different speakers, the audio signal indicated by the solid line and the audio signal 2020 indicated by the dashed line, may be output on the same audio output channel.

 また、図5に示すように、継続して発生しているある話者の音声に一時的に他の話者の音声が重複している場合がある。
 図5の例では、破線の波形の話者の発声中に実線の波形の話者が発声を開始し、一時的に両者の音声が混合している。しかし、実線の波形の話者の発声は短時間で終了し、以降は破線の波形の話者のみが発声を継続している。
Furthermore, as shown in FIG. 5, there are cases where the continuously occurring voice of one speaker is temporarily overlapped with the voice of another speaker.
In the example of Figure 5, the speaker of the solid waveform begins speaking while the speaker of the dashed waveform is still speaking, and the two voices are temporarily mixed together. However, the speaker of the solid waveform finishes speaking in a short time, and thereafter only the speaker of the dashed waveform continues speaking.

 この場合も、図5の(a)に示すように、区間検出部102が、実線の波形と破線の波形が重複している時間範囲を混合音声区間123として検出する。また、区間検出部102は、混合音声区間123の直前の単一音声の時間範囲と直後の単一音声の時間範囲を直前区間122及び直後区間124として検出する。
 また、音声分離部103は、図5の(b)に示すように、混合音声を分離音声126と分離音声1270に分離する。図5の(b)では、分離音声126が前方接続分離音声及び後方接続分離音声に該当する。つまり、分離音声126は、直前単一音声128と同じ音声であると推定され、また、直後単一音声129と同じ音声であると推定されている。
 一方、分離音声1270は、前方接続分離音声及び後方接続分離音声のいずれにも該当しない。
5A, the section detection unit 102 detects the time range in which the solid line waveform and the dashed line waveform overlap as a mixed voice section 123. The section detection unit 102 also detects the time range of the single voice immediately before and after the mixed voice section 123 as a immediately before section 122 and an immediately after section 124.
Furthermore, the audio separation unit 103 separates the mixed audio into separated audio 126 and separated audio 1270, as shown in Fig. 5B. In Fig. 5B, the separated audio 126 corresponds to the forward connected separated audio and the backward connected separated audio. In other words, the separated audio 126 is estimated to be the same audio as the immediately preceding single audio 128 and the immediately following single audio 129.
On the other hand, the separated audio 1270 corresponds to neither the forward connected separated audio nor the backward connected separated audio.

 この場合に、音声接続部105は、図5の(c)に示すように、分離音声126の音声信号を前方単一音声信号203の末尾(直前単一音声128に相当する部分)に接続する。また、音声接続部105は、分離音声126の音声信号を後方単一音声信号204の先頭(直後単一音声129に相当する部分)に接続する。前方単一音声信号203は前方区間1203の音声信号である。また、後方単一音声信号204は後方区間1204の音声信号である。
 一方、分離音声1270は前方接続分離音声及び後方接続分離音声のいずれにも該当しないため、音声接続部105は、分離音声1270をいずれの時間範囲の単一音声にも接続しない。そして、音声接続部105は、分離音声1270を、分離音声126の音声信号を前方単一音声信号203及び後方単一音声信号204に接続した音声出力チャネルとは異なる音声出力チャネル(バックチャネル)に設定する。
In this case, as shown in (c) of Fig. 5, the audio connection unit 105 connects the audio signal of the separated audio 126 to the end of the forward single audio signal 203 (the part corresponding to the immediately preceding single audio 128). The audio connection unit 105 also connects the audio signal of the separated audio 126 to the beginning of the backward single audio signal 204 (the part corresponding to the immediately following single audio 129). The forward single audio signal 203 is the audio signal of the forward section 1203. The backward single audio signal 204 is the audio signal of the backward section 1204.
On the other hand, since the separated audio 1270 does not correspond to either the forward connected separated audio or the backward connected separated audio, the audio connection unit 105 does not connect the separated audio 1270 to any single audio in any time range. Then, the audio connection unit 105 sets the separated audio 1270 to an audio output channel (back channel) different from the audio output channel that connects the audio signal of the separated audio 126 to the forward single audio signal 203 and the backward single audio signal 204.

 なお、音声接続部105は、前述のように、直前単一音声128の音声信号と前方単一音声信号203の末尾部分との類似性及び直後単一音声129の音声信号と後方単一音声信号204の先頭部分との類似性を判定してもよい。 As described above, the audio connection unit 105 may determine the similarity between the audio signal of the immediately preceding single audio 128 and the end portion of the preceding single audio signal 203, and the similarity between the audio signal of the immediately following single audio 129 and the beginning portion of the following single audio signal 204.

 また、音声接続部105は、図6に示すように、前方接続分離音声126の音声信号と前方単一音声信号201への接続と、後方接続分離音声127の音声信号の後方単一音声信号202への接続とを、同一の音声出力チャネルで行ってもよい。
 図6の(a)と(b)は、図4の(a)と(b)と同じである。
 図6の(c)では、音声接続部105は、前方接続分離音声126の音声信号の前方単一音声信号201への接続と、後方接続分離音声127の音声信号の後方単一音声信号202への接続とを、同一の音声出力チャネルで行っている。より具体的には、音声接続部105は、同一の音声出力チャネルにおいて、前方接続分離音声126の音声信号と前方単一音声信号201との接続で得られた単一音声の音声信号の後方に、後方接続分離音声127の音声信号と後方単一音声信号202との接続で得られた単一音声の音声信号を設定している。ここでは、音声接続部105は、後方接続分離音声127の音声信号と後方単一音声信号202との接続で得られた単一音声を時間的に後ろにずらしている。
In addition, as shown in Figure 6, the audio connection unit 105 may connect the audio signal of the forward connection separated audio 126 to the forward single audio signal 201 and connect the audio signal of the backward connection separated audio 127 to the backward single audio signal 202 using the same audio output channel.
(a) and (b) of FIG. 6 are the same as (a) and (b) of FIG.
6(c), the audio connection unit 105 connects the audio signal of the forward connected separated audio 126 to the forward single audio signal 201 and the audio signal of the backward connected separated audio 127 to the backward single audio signal 202 on the same audio output channel. More specifically, on the same audio output channel, the audio connection unit 105 sets the single audio signal obtained by connecting the audio signal of the backward connected separated audio 127 to the backward single audio signal 202 behind the single audio signal obtained by connecting the audio signal of the forward connected separated audio 126 to the forward single audio signal 201. Here, the audio connection unit 105 shifts the single audio obtained by connecting the audio signal of the backward connected separated audio 127 to the backward single audio signal 202 backward in time.

 また、図5に示す分離音声1270が存在する場合も、音声接続部105は、図7に示すように、分離音声1270の音声信号を、分離音声126の音声信号と前方単一音声信号203及び後方単一音声信号204との接続が行われる音声出力チャネルに設定しても
よい。
 図7の(a)と(b)は、図5の(a)と(b)と同じである。
 図7の(c)では、音声接続部105は、分離音声1270の音声信号を、分離音声126の音声信号と前方単一音声信号203及び後方単一音声信号204-1との接続が行われる音声出力チャネルに設定している。より具体的には、音声接続部105は、分離音声1270の音声信号をいずれの時間範囲の単一音声にも接続せずに、前方単一音声信号203と分離音声126の音声信号と後方単一音声信号204-1の音声信号との接続で得られた単一音声の音声信号の後方に、分離音声1270の音声信号を設定している。なお、図7の(c)の例では、後方単一音声信号204は、後方単一音声信号204-1と後方単一音声信号204-2に分かれる。また、図6の場合と同様に、音声接続部105は、分離音声1270の音声信号と後方単一音声信号204-2とを時間的に後ろにずらしている。
Also, even when the separated audio 1270 shown in FIG. 5 exists, the audio connection unit 105 may set the audio signal of the separated audio 1270 to an audio output channel where the audio signal of the separated audio 126 is connected to the front single audio signal 203 and the rear single audio signal 204, as shown in FIG. 7.
(a) and (b) of FIG. 7 are the same as (a) and (b) of FIG.
In (c) of Figure 7, the audio connection unit 105 sets the audio signal of separated audio 1270 to the audio output channel where the audio signal of separated audio 126 is connected to the front single audio signal 203 and the rear single audio signal 204-1. More specifically, the audio connection unit 105 does not connect the audio signal of separated audio 1270 to any single audio in any time range, but sets the audio signal of separated audio 1270 behind the audio signal of the single audio obtained by connecting the front single audio signal 203, the audio signal of separated audio 126, and the audio signal of the rear single audio signal 204-1. Note that in the example of (c) of Figure 7, the rear single audio signal 204 is separated into the rear single audio signal 204-1 and the rear single audio signal 204-2. Also, as in the case of Figure 6, the audio connection unit 105 shifts the audio signal of separated audio 1270 and the rear single audio signal 204-2 later in time.

***実施の形態の効果の説明***
 本実施の形態では、音声分離の対象として、音声分離が必要な混合音声区間のみを検出している。
 従来技術では、入力された音声全体に音声分離が行われている。このため、音声全体に対して処理歪が発生し、処理歪が後処理に悪影響を及ぼしている。
 本実施の形態では、音声分離の対象範囲を限定することで、音声分離により生じる悪影響(処理歪)を低減することができる。
***Description of Effects of the Embodiment***
In this embodiment, only mixed voice segments that require voice separation are detected as targets for voice separation.
In the prior art, speech separation is performed on the entire input speech, which causes processing distortion to occur in the entire speech, and this processing distortion adversely affects post-processing.
In this embodiment, by limiting the target range of audio separation, it is possible to reduce adverse effects (processing distortion) caused by audio separation.

 また、音声分離に処理遅延がある場合でも、本実施の形態では音声分離の対象範囲を限定するため、処理遅延を低減することができる。 Furthermore, even if there is a processing delay in audio separation, this embodiment limits the range of audio separation, thereby reducing the processing delay.

 また、音声分離の計算コストが高い場合でも、本実施の形態では音声分離の対象範囲を限定するため、計算コストを削減することができる。 Furthermore, even if the computational cost of audio separation is high, this embodiment limits the range of audio separation, thereby reducing computational costs.

実施の形態2.
 本実施の形態では、音声復元において処理歪による悪影響を緩和する。
 本実施の形態では、主に実施の形態1との差異を説明する。
 なお、以下で説明していない事項は、実施の形態1と同様である。
Embodiment 2.
In this embodiment, the adverse effects of processing distortion in audio restoration are mitigated.
In this embodiment, differences from the first embodiment will be mainly described.
It should be noted that matters not explained below are the same as those in the first embodiment.

 図8は、本実施の形態に係る音声処理装置100の機能構成例を示す。
 図1と比較して、図8では、区間検出部102から音声復元部104に混合音声区間123の尤度1231が出力されている。
FIG. 8 shows an example of the functional configuration of the audio processing device 100 according to this embodiment.
Compared to FIG. 1, in FIG. 8, the likelihood 1231 of the mixed voice section 123 is output from the section detection section 102 to the voice restoration section 104.

 本実施の形態の形態では、区間検出部102は、実施の形態1で説明した動作に加えて混合音声区間123の尤度1231を算出する。
 そして、区間検出部102は、算出した尤度1231を音声復元部104に出力する。
In this embodiment, the section detection unit 102 calculates likelihood 1231 of the mixed voice section 123 in addition to the operations described in the first embodiment.
Then, the segment detection unit 102 outputs the calculated likelihood 1231 to the speech restoration unit 104 .

 音声復元部104は、尤度1231を用いて、各分離音声の音声信号を復元する。
 具体的には、音声復元部104は、まず以下の式1より重み付け特徴量Wを計算した後に、この重みづけ特徴量Wを入力として各分離音声の音声信号を復元する。以下の式1において、alphaが尤度1231である。また、W_beforeは、分離前の混合音声の特徴量である。W_afterは、分離後の音声(図4の例では、分離音声126と分離音声127)の特徴量である。
 W=alpha×W_after+(1-alpha)×W_before  式1
 ただし、本実施の形態において上記のW、W_after、W_beforeは音声信号そのものであっても良い。この場合、音声復元部104によって復元された分離音声の音声をW_after、分離前の音声をW_beforeとし、式1の重みづけ和をとっ
た音声Wを音声復元部104の出力とする。
 例えば、以下の参考文献2には、処理歪による悪影響を緩和する処理として分離前の音声と分離後の音声との重み付け和を計算することが示されている。
 参考文献2:特許第7345702号
The speech restoration unit 104 restores the speech signal of each separated speech using the likelihood 1231 .
Specifically, the speech restoration unit 104 first calculates a weighted feature W using the following equation 1, and then restores the speech signal of each separated speech using this weighted feature W as an input. In the following equation 1, alpha is the likelihood 1231. Furthermore, W_before is a feature of the mixed speech before separation. W_after is a feature of the speech after separation (in the example of FIG. 4, separated speech 126 and separated speech 127).
W = alpha × W_after + (1 - alpha) × W_before Formula 1
However, in this embodiment, the above W, W_after, and W_before may be the audio signals themselves. In this case, the separated audio restored by the audio restoration unit 104 is defined as W_after, the audio before separation is defined as W_before, and the audio W obtained by taking the weighted sum of Equation 1 is defined as the output of the audio restoration unit 104.
For example, Reference 2 below discloses that a weighted sum of speech before and after separation is calculated as a process for mitigating adverse effects of processing distortion.
Reference document 2: Patent No. 7345702

***実施の形態の効果の説明***
 本実施の形態では、混合音声区間の尤度を用いて分離前の音声と分離後の音声の重み付け和を計算することで処理歪を低減することができる。この結果、本実施の形態によれば、処理歪による後処理への悪影響を低減することができる。
***Description of Effects of the Embodiment***
In this embodiment, the likelihood of the mixed speech section is used to calculate a weighted sum of the speech before separation and the speech after separation, thereby reducing the processing distortion. As a result, this embodiment can reduce the adverse effects of processing distortion on post-processing.

実施の形態3.
 本実施の形態では、特徴量データ110を既定のサイズに分割する例を説明する。
 本実施の形態では、主に実施の形態1との差異を説明する。
 なお、以下で説明していない事項は、実施の形態1と同様である。
Embodiment 3.
In this embodiment, an example will be described in which the feature amount data 110 is divided into pieces of a predetermined size.
In this embodiment, differences from the first embodiment will be mainly described.
It should be noted that matters not explained below are the same as those in the first embodiment.

 図9は、本実施の形態に係る音声処理装置100の機能構成例を示す。
 図1と比較して、図9では、第1の分割部131と第2の分割部132が追加されている。
 また、特徴量抽出部101は、第1の分割部131に特徴量データ110と混合音声信号列200を出力し、第2の分割部132に特徴量データ110を出力する。
FIG. 9 shows an example of the functional configuration of a voice processing device 100 according to this embodiment.
Compared to FIG. 1, a first dividing unit 131 and a second dividing unit 132 are added in FIG.
The feature extraction unit 101 also outputs the feature data 110 and the mixed speech signal sequence 200 to the first division unit 131 , and outputs the feature data 110 to the second division unit 132 .

 第1の分割部131及び第2の分割部132の機能も特徴量抽出部101等と同様にプログラムにより実現される。第1の分割部131及び第2の分割部132の機能を実現するプログラムは、プロセッサ901により実行される。 The functions of the first division unit 131 and the second division unit 132 are also realized by a program, similar to the feature extraction unit 101, etc. The program that realizes the functions of the first division unit 131 and the second division unit 132 is executed by the processor 901.

 第1の分割部131は、特徴量データ110を既定のサイズに分割する。第1の分割部131は、区間検出部102が混合音声区間123を検出するのに適したサイズに特徴量データ110を分割する。
 そして、第1の分割部131は、特徴量データ110を分割することで得られた分割特徴量データ1131と、混合音声信号列200を区間検出部102に出力する。
 区間検出部102は、特徴量データ110の代わりに分割特徴量データ1131を取得し、分割特徴量データ1131を用いて混合音声区間123を検出する。区間検出部102での混合音声区間123の検出処理自体は実施の形態1で説明したものと同じであるため、説明を省略する。
 なお、本実施の形態では、区間検出部102は、適用区間特徴量120に代えて適用区間定義情報1230を音声分離部103に出力する。適用区間定義情報1230は、適用区間125を定義する情報である。
The first dividing unit 131 divides the feature data 110 into pieces of a predetermined size that are suitable for the section detection unit 102 to detect the mixed voice section 123.
The first dividing unit 131 then outputs divided feature data 1131 obtained by dividing the feature data 110 and the mixed speech signal sequence 200 to the section detection unit 102 .
The section detection unit 102 acquires division feature data 1131 instead of the feature data 110, and detects the mixed voice section 123 using the division feature data 1131. The detection process for the mixed voice section 123 in the section detection unit 102 is the same as that described in the first embodiment, and therefore a description thereof will be omitted.
In this embodiment, the section detection unit 102 outputs application section definition information 1230 to the audio separation unit 103 instead of the application section feature amount 120. The application section definition information 1230 is information that defines the application section 125.

 第2の分割部132は、特徴量データ110を既定のサイズに分割する。第2の分割部132は、音声分離部103が音声分離を行うのに適したサイズに特徴量データ110を分割する。第2の分割部132は、第1の分割部131における分割サイズと同じサイズで特徴量データ110を分割してもよいし異なるサイズで特徴量データ110を分割してもよい。
 そして、第2の分割部132は、特徴量データ110を分割することで得られた分割特徴量データ1132を音声分離部103に出力する。
 音声分離部103は、第2の分割部132から分割特徴量データ1132を取得する。また、音声分離部103は、適用区間特徴量120から適用区間定義情報1230を取得する。音声分離部103は、適用区間定義情報1230により適用区間125を特定し、特定した適用区間125について分割特徴量データ1132を用いて音声分離を行う。音声分離部103での音声分離処理自体は実施の形態1で説明したものと同じであるため、説明を省略する。
The second division unit 132 divides the feature data 110 into pieces of a predetermined size. The second division unit 132 divides the feature data 110 into pieces of a size suitable for audio separation by the audio separation unit 103. The second division unit 132 may divide the feature data 110 into pieces of the same size as the division size in the first division unit 131, or may divide the feature data 110 into pieces of a different size.
Then, the second dividing unit 132 outputs divided feature data 1132 obtained by dividing the feature data 110 to the audio separation unit 103 .
The audio separation unit 103 acquires segmentation feature data 1132 from the second segmentation unit 132. The audio separation unit 103 also acquires application section definition information 1230 from the application section feature 120. The audio separation unit 103 identifies an application section 125 using the application section definition information 1230, and performs audio separation for the identified application section 125 using the segmentation feature data 1132. The audio separation process itself in the audio separation unit 103 is the same as that described in embodiment 1, and therefore will not be described again.

 本実施の形態では、区間検出部102は分割特徴量データ1131を用いて動作し、音声分離部103は分割特徴量データ1132を用いて動作する。このため、区間検出部102と音声分離部103は、並列に動作可能である。
 また、第1の分割部131は、前後する分割特徴量データ1131の間で重複する部分を設けて特徴量データ110を分割してもよい。同様に、第2の分割部132も、前後する分割特徴量データ1132の間で重複する部分を設けて特徴量データ110を分割してもよい。
In this embodiment, the section detection unit 102 operates using division feature data 1131, and the audio separation unit 103 operates using division feature data 1132. Therefore, the section detection unit 102 and the audio separation unit 103 can operate in parallel.
The first dividing unit 131 may divide the feature data 110 by providing overlapping portions between adjacent pieces of divided feature data 1131. Similarly, the second dividing unit 132 may divide the feature data 110 by providing overlapping portions between adjacent pieces of divided feature data 1132.

***実施の形態の効果の説明***
 本実施の形態では、分割特徴量データを用いて混合音声区間の検出を行う。このため、本実施の形態では、混合音声区間の検出における処理遅延を分割特徴量データのサイズに削減することができる。
 同様に、本実施の形態では、分割特徴量データを用いて音声分離を行う。このため、本実施の形態では、音声分離における処理遅延を分割特徴量データのサイズに削減することができる。
***Description of Effects of the Embodiment***
In this embodiment, the mixed speech section is detected using the division feature data, so that the processing delay in the detection of the mixed speech section can be reduced to the size of the division feature data.
Similarly, in this embodiment, speech separation is performed using the division feature data, so that the processing delay in speech separation can be reduced to the size of the division feature data.

 また、本実施の形態では、混合音声区間の検出に適したサイズに特徴量データを分割する。このため、本実施の形態によれば、特徴量データの分割による混合音声区間の検出における精度劣化を低減させることができる。
 同様に、本実施の形態では、音声分離に適したサイズに特徴量データを分割する。このため、本実施の形態によれば、特徴量データの分割による音声分離における精度劣化を低減させることができる。
In this embodiment, the feature data is divided into sizes suitable for detecting mixed speech segments, which reduces the deterioration in accuracy of detecting mixed speech segments due to the division of feature data.
Similarly, in this embodiment, feature data is divided into sizes suitable for speech separation, which reduces the deterioration in speech separation accuracy caused by dividing feature data.

実施の形態4.
 本実施の形態では、混合音声区間の検出に適した特徴量と音声分離に適した特徴量を抽出する例を説明する。
 本実施の形態では、主に実施の形態1との差異を説明する。
 なお、以下で説明していない事項は、実施の形態1と同様である。
Embodiment 4.
In this embodiment, an example will be described in which a feature suitable for detecting a mixed voice section and a feature suitable for voice separation are extracted.
In this embodiment, differences from the first embodiment will be mainly described.
It should be noted that matters not explained below are the same as those in the first embodiment.

 図10は、本実施の形態に係る音声処理装置100の機能構成例を示す。
 図1と比較して、図10では、特徴量抽出部101に代えて第1の特徴量抽出部141と第2の特徴量抽出部142が設けられている。
FIG. 10 shows an example of the functional configuration of a voice processing device 100 according to this embodiment.
Compared to FIG. 1, in FIG. 10, a first feature extraction unit 141 and a second feature extraction unit 142 are provided instead of the feature extraction unit 101.

 第1の特徴量抽出部141及び第2の特徴量抽出部142の機能も特徴量抽出部101等と同様にプログラムにより実現される。第1の特徴量抽出部141及び第2の特徴量抽出部142の機能を実現するプログラムは、プロセッサ901により実行される。 The functions of the first feature extraction unit 141 and the second feature extraction unit 142 are also realized by a program, similar to the feature extraction unit 101, etc. The program that realizes the functions of the first feature extraction unit 141 and the second feature extraction unit 142 is executed by the processor 901.

 第1の特徴量抽出部141は、混合音声信号列200を取得する。第1の特徴量抽出部141は、例えば、通信装置904を介して通信ネットワークから混合音声信号列200を取得する。また、第1の特徴量抽出部141は、入出力装置の記録媒体読み出し装置から混合音声信号列200を取得してもよい。
 そして、第1の特徴量抽出部141は、混合音声信号列200から、区間検出部102が混合音声区間123を検出するのに適した特徴量を抽出する。
 そして、第1の特徴量抽出部141は、抽出した特徴量が示される第1の特徴量データ1141と、混合音声信号列200を区間検出部102に出力する。また、第1の特徴量抽出部141は、混合音声信号列200を第2の特徴量抽出部142に出力する。
The first feature extraction unit 141 acquires the mixed audio signal sequence 200. For example, the first feature extraction unit 141 acquires the mixed audio signal sequence 200 from a communication network via the communication device 904. Alternatively, the first feature extraction unit 141 may acquire the mixed audio signal sequence 200 from a recording medium reading device of an input/output device.
The first feature extracting unit 141 then extracts features from the mixed speech signal sequence 200 that are suitable for the section detecting unit 102 to detect the mixed speech section 123 .
Then, the first feature extraction unit 141 outputs first feature data 1141 indicating the extracted features and the mixed audio signal sequence 200 to the section detection unit 102. The first feature extraction unit 141 also outputs the mixed audio signal sequence 200 to the second feature extraction unit 142.

 区間検出部102は、特徴量データ110の代わりに第1の特徴量データ1141を取
得し、第1の特徴量データ1141を用いて混合音声区間123を検出する。区間検出部102での混合音声区間123の検出処理自体は実施の形態1で説明したものと同じであるため、説明を省略する。
 なお、本実施の形態では、区間検出部102は、適用区間特徴量120に代えて適用区間定義情報1240を音声分離部103に出力する。適用区間定義情報1240は、適用区間125を定義する情報である。
The section detection unit 102 acquires first feature data 1141 instead of the feature data 110, and detects the mixed voice section 123 using the first feature data 1141. The detection process for the mixed voice section 123 in the section detection unit 102 is the same as that described in the first embodiment, and therefore a description thereof will be omitted.
In this embodiment, the section detection unit 102 outputs application section definition information 1240 to the audio separation unit 103 instead of the application section feature amount 120. The application section definition information 1240 is information that defines the application section 125.

 第2の特徴量抽出部142は、混合音声信号列200から、音声分離部103が音声分離を行うのに適した特徴量を抽出する。
 第2の特徴量抽出部142は、第1の特徴量抽出部141が抽出する特徴量と同じ種類の特徴量を抽出してもよいし異なる種類の特徴量を抽出してもよい。
 そして、第2の特徴量抽出部142は、抽出した特徴量が示される第2の特徴量データ1142を音声分離部103に出力する。
The second feature extracting unit 142 extracts features from the mixed audio signal sequence 200 that are suitable for the audio separating unit 103 to perform audio separation.
The second feature amount extraction unit 142 may extract the same type of feature amount as the feature amount extracted by the first feature amount extraction unit 141, or may extract a different type of feature amount.
Then, the second feature extraction unit 142 outputs second feature data 1142 indicating the extracted feature to the audio separation unit 103 .

 音声分離部103は、第2の特徴量抽出部142から第2の特徴量データ1142を取得する。また、音声分離部103は、適用区間特徴量120から適用区間定義情報1240を取得する。音声分離部103は、適用区間定義情報1240により適用区間125を特定し、特定した適用区間125について第2の特徴量データ1142を用いて音声分離を行う。音声分離部103での音声分離処理自体は実施の形態1で説明したものと同じであるため、説明を省略する。 The audio separation unit 103 acquires second feature data 1142 from the second feature extraction unit 142. The audio separation unit 103 also acquires application section definition information 1240 from the application section feature 120. The audio separation unit 103 identifies the application section 125 using the application section definition information 1240, and performs audio separation for the identified application section 125 using the second feature data 1142. The audio separation process itself in the audio separation unit 103 is the same as that described in embodiment 1, so a description thereof will be omitted.

 本実施の形態では、区間検出部102は第1の特徴量データ1141を用いて動作し、音声分離部103は第2の特徴量データ1142を用いて動作する。このため、区間検出部102と音声分離部103は、並列に動作可能である。 In this embodiment, the section detection unit 102 operates using the first feature data 1141, and the audio separation unit 103 operates using the second feature data 1142. Therefore, the section detection unit 102 and the audio separation unit 103 can operate in parallel.

***実施の形態の効果の説明***
 本実施の形態では、混合音声区間の検出に適した特徴量が抽出される。このため、本実施の形態によれば、混合音声区間の検出における精度を向上させることができる。また、混合音声区間の検出に適したモデルを使用することができる。
 同様に、本実施の形態では、音声分離に適した特徴量が抽出される。このため、本実施の形態によれば、音声分離における精度を向上させることができる。また、音声分離に適したモデルを使用することができる。
***Description of Effects of the Embodiment***
In this embodiment, features suitable for detecting mixed speech segments are extracted. Therefore, according to this embodiment, it is possible to improve the accuracy of detecting mixed speech segments. Furthermore, it is possible to use a model suitable for detecting mixed speech segments.
Similarly, in this embodiment, features suitable for speech separation are extracted. Therefore, according to this embodiment, it is possible to improve the accuracy of speech separation. Furthermore, it is possible to use a model suitable for speech separation.

実施の形態5.
 本実施の形態では、音声強調を行う例を説明する。
 本実施の形態では、主に実施の形態1との差異を説明する。
 なお、以下で説明していない事項は、実施の形態1と同様である。
Embodiment 5.
In this embodiment, an example of performing voice emphasis will be described.
In this embodiment, differences from the first embodiment will be mainly described.
It should be noted that matters not explained below are the same as those in the first embodiment.

 図11は、本実施の形態に係る音声処理装置100の機能構成例を示す。
 図1と比較して、図11では、音声強調部106が追加されている。
FIG. 11 shows an example of the functional configuration of a voice processing device 100 according to this embodiment.
Compared to FIG. 1, a voice enhancement unit 106 is added in FIG.

 音声強調部106の機能も特徴量抽出部101等と同様にプログラムにより実現される。音声強調部106の機能を実現するプログラムは、プロセッサ901により実行される。 The functions of the speech enhancement unit 106 are also realized by a program, similar to the feature extraction unit 101, etc. The program that realizes the functions of the speech enhancement unit 106 is executed by the processor 901.

 音声強調部106は、ノイズと音声とを分離する音声強調を行う。
 音声強調部106は、例えば、以下の参考文献3に開示の音声強調技術を用いる。
 参考文献3:https://www.merl.com/publications/docs/TR2016-113.pdf
The speech enhancement unit 106 performs speech enhancement to separate noise from speech.
The speech enhancement unit 106 uses, for example, the speech enhancement technique disclosed in Reference 3 below.
Reference 3: https://www. merl. com/publications/docs/TR2016-113. pdf

 本実施の形態では、区間検出部102は、実施の形態1で説明した処理に加えて、特徴量データ110でのノイズのレベルを判定する。そして、区間検出部102は、ノイズのレベルに応じて音声強調部106に音声強調を行わせる時間範囲(以下、音声強調区間)を決定する。
 区間検出部102は、例えば、図12に示すように、音声区間121よりも短く適用区間125よりも長い時間範囲を音声強調区間1255として指定する。
 区間検出部102は、以下に示す方法により音声強調区間1255を検出する。
 そして、区間検出部102は、音声強調区間特徴量1251と適用区間定義情報1252を音声強調部106に出力する。音声強調区間特徴量1251は、音声強調区間1255の特徴量である。適用区間定義情報1252は、適用区間125を定義する情報である。
In this embodiment, in addition to the processing described in the first embodiment, the section detection unit 102 determines the noise level in the feature data 110. Then, the section detection unit 102 determines a time range (hereinafter referred to as a speech enhancement section) for which the speech enhancement unit 106 performs speech enhancement, depending on the noise level.
For example, as shown in FIG. 12, the section detection unit 102 designates a time range that is shorter than the speech section 121 and longer than the application section 125 as a speech emphasis section 1255 .
The section detection unit 102 detects the emphasized speech section 1255 by the following method.
Then, the section detection unit 102 outputs the speech emphasis section feature amount 1251 and the application section definition information 1252 to the speech emphasis unit 106. The speech emphasis section feature amount 1251 is a feature amount of the speech emphasis section 1255. The application section definition information 1252 is information that defines the application section 125.

音声強調区間1255の検出方法(1)-ルールベース
 区間検出部102は、音声区間121の開始点の時間的に少し前の時点(以下、開始候補点という)での音声信号のパワーが、開始候補点の一定時間前の時点での音声信号のパワーより高い場合(つまり、開始候補点で、開始候補点より前の非音声区間よりも音声信号のパワーが上がっている場合)に、開始候補点を音声強調区間1255の開始点として検出する。また、区間検出部102は、音声区間121の終端点の時間的に少し後の時点(以下、終端候補点という)での音声信号のパワーが、終端候補点の一定時間後の時点での音声信号のパワーより高い場合に、終端候補点を音声強調区間1255の終端点として検出する。
Method (1) of detecting the speech emphasis section 1255—rule-based When the power of the speech signal at a point in time slightly before the start point of the speech section 121 (hereinafter referred to as the candidate start point) is higher than the power of the speech signal at a point in time a fixed time before the candidate start point (in other words, when the power of the speech signal at the candidate start point is higher than that of the non-speech section before the candidate start point), the section detection unit 102 detects the candidate start point as the start point of the speech emphasis section 1255. Also, when the power of the speech signal at a point in time slightly after the end point of the speech section 121 (hereinafter referred to as the candidate end point) is higher than the power of the speech signal at a point in time a fixed time after the candidate end point, the section detection unit 102 detects the candidate end point as the end point of the speech emphasis section 1255.

音声強調区間1255の検出方法(2)-統計ベース
 区間検出部102は、GMMを学習して音声強調区間1255を検出してもよい。
 例えば、区間検出部102は、ノイズGMMと音声GMMを学習し、それぞれの学習結果の尤度を比較して、音声区間121を検出する。
 区間検出部102は、音声強調区間1255の検出では、ノイズGMMの学習において、音声強調を適用すべきパワーの大きいノイズ又は特殊なノイズを用いて学習する。
 また、区間検出部102は、HMMを構成してもよい。
Method (2) for Detecting the Emphasized Speech Section 1255—Statistical Base The section detection unit 102 may detect the emphasized speech section 1255 by learning a GMM.
For example, the section detection unit 102 learns a noise GMM and a speech GMM, compares the likelihood of each learning result, and detects the speech section 121 .
In detecting the speech emphasis section 1255, the section detection unit 102 performs learning of the noise GMM using a noise with high power or a special noise to which speech emphasis should be applied.
The section detection unit 102 may also configure an HMM.

音声強調区間1255の検出方法(3)-ニューラルネットワークベース
 また、区間検出部102は、多層パーセプトロン、RNN、LSTM等を用いた学習により音声区間121及び音声強調区間1255を検出する。
Method (3) for Detecting the Emphasized Speech Section 1255—Neural Network Based The section detection unit 102 detects the speech section 121 and the emphasized speech section 1255 by learning using a multilayer perceptron, RNN, LSTM, or the like.

 音声強調部106は、音声強調区間特徴量1251に音声強調を行う。
 そして、音声強調部106は、音声強調適用区間特徴量160を音声分離部103に出力する。音声強調適用区間特徴量160は、音声強調後の適用区間125の特徴量である。
 音声強調部106は、音声強調後の音声強調区間特徴量1251のうち適用区間定義情報1252で定義されている適用区間125に相当する特徴量を音声強調適用区間特徴量160として出力する。
The speech emphasizing unit 106 performs speech emphasis on the speech emphasis section feature 1251 .
Then, the speech emphasizing unit 106 outputs the speech emphasis application section feature amount 160 to the speech separating unit 103. The speech emphasis application section feature amount 160 is a feature amount of the application section 125 after the speech emphasis.
The speech emphasizing unit 106 outputs, as a speech enhancement application section feature 160, a feature corresponding to the application section 125 defined in the application section definition information 1252 out of the speech enhancement section feature 1251 after speech enhancement.

 音声分離部103は、適用区間特徴量120に代えて音声強調適用区間特徴量160を用いて音声分離を行う。音声分離部103での音声分離処理自体は実施の形態1で説明したものと同じであるため、説明を省略する。 The speech separation unit 103 performs speech separation using speech enhancement application section features 160 instead of application section features 120. The speech separation process itself in the speech separation unit 103 is the same as that described in embodiment 1, so a description thereof will be omitted.

 なお、図10のような特徴量抽出部101の代わりに第1の特徴量抽出部141と第2の特徴量抽出部142が設けられた構成に音声強調部106を追加してもよい。この場合に、音声強調に適した第3の特徴量を抽出する第3の特徴量抽出部を設けてもよい。この場合は、第3の特徴量抽出部から音声強調部106に第3の特徴量が入力される。 In addition, instead of the feature extraction unit 101 as shown in FIG. 10, a configuration in which a first feature extraction unit 141 and a second feature extraction unit 142 are provided may be added to the speech enhancement unit 106. In this case, a third feature extraction unit that extracts a third feature suitable for speech enhancement may be provided. In this case, the third feature is input from the third feature extraction unit to the speech enhancement unit 106.

***実施の形態の効果の説明***
 本実施の形態によれば、音声強調によりノイズを除去することができる。また、本実施の形態では、音声強調の対象範囲をノイズのレベルに応じて限定するため、音声強調に伴う処理歪を限定することができる。
***Description of Effects of the Embodiment***
According to this embodiment, noise can be removed by speech enhancement. Furthermore, in this embodiment, the target range of speech enhancement is limited according to the noise level, so that processing distortion due to speech enhancement can be limited.

 更に、音声強調に処理遅延がある場合でも、本実施の形態では音声強調の対象範囲を限定するため、処理遅延を低減することができる。
 また、音声強調の計算コストが高い場合でも、本実施の形態では音声強調の対象範囲を限定するため、計算コストを削減することができる。
Furthermore, even if there is a processing delay in the speech enhancement, the processing delay can be reduced because the range of speech enhancement is limited in this embodiment.
Furthermore, even if the calculation cost of speech enhancement is high, the calculation cost can be reduced because the range of speech enhancement is limited in this embodiment.

実施の形態6.
 本実施の形態では、実施の形態2で説明した混合音声区間123の尤度1231を導出するためのモデルを生成する例を説明する。
 本実施の形態では、主に実施の形態2との差異を説明する。
 なお、以下で説明していない事項は、実施の形態2と同様である。
Embodiment 6.
In this embodiment, an example of generating a model for deriving the likelihood 1231 of the mixed voice section 123 described in the second embodiment will be described.
In this embodiment, differences from the second embodiment will be mainly described.
The matters not explained below are the same as those in the second embodiment.

 図13は、本実施の形態に係る音声処理装置100の機能構成例を示す。
 図8と比較して、図13では、モデル生成部107とモデル記憶部108が追加されている。
FIG. 13 shows an example of the functional configuration of a voice processing device 100 according to this embodiment.
13, a model generation unit 107 and a model storage unit 108 are added compared to FIG. 8.

 モデル生成部107の機能も特徴量抽出部101等と同様にプログラムにより実現される。モデル生成部107の機能を実現するプログラムは、プロセッサ901により実行される。
 モデル記憶部108は、例えば、補助記憶装置903により実現される。
The function of the model generation unit 107 is also realized by a program, similar to the feature extraction unit 101 etc. The program that realizes the function of the model generation unit 107 is executed by the processor 901.
The model storage unit 108 is realized by, for example, the auxiliary storage device 903 .

 モデル生成部107は、学習フェーズにおいて、学習により尤度導出モデル170を生成する。尤度導出モデル170は、混合音声区間123の尤度1231の導出のためのモデルである。
 モデル生成部107は、生成した尤度導出モデル170をモデル記憶部108に格納する。
 モデル記憶部108は、尤度導出モデル170を記憶する。
In the learning phase, the model generation unit 107 generates a likelihood derivation model 170 through learning. The likelihood derivation model 170 is a model for deriving a likelihood 1231 of the mixed voice section 123.
The model generation unit 107 stores the generated likelihood derivation model 170 in the model storage unit 108 .
The model storage unit 108 stores the likelihood derivation model 170 .

 本実施の形態では、区間検出部102は、推論フェーズにおいて、尤度導出モデル170を用いて尤度1231を導出する。
 そして、区間検出部102は、導出した尤度1231を音声復元部104に出力する。
 音声復元部104は、実施の形態2で説明したように、尤度1231を用いて、各分離音声の音声信号を復元する。
In this embodiment, the section detection unit 102 derives the likelihood 1231 using the likelihood derivation model 170 in the inference phase.
Then, the segment detection unit 102 outputs the derived likelihood 1231 to the speech restoration unit 104 .
As described in the second embodiment, the speech restoration unit 104 restores the speech signal of each separated speech using the likelihood 1231 .

 モデル生成部107は、具体的には、以下にて尤度導出モデル170を生成する。
 ここでは、音声分離部103は、特許文献1に記載の音声分離モデルを学習して混合音声を複数の分離音声に分離するものとする。
 そして、音声分離部103が音声分離モデルを学習する際の音声分離モデルのロス関数をL_sep(W_true,W_after)とする。ここで、W_trueは真の音声信号である。W_afterは分離後の音声信号である。
 そして、区間検出部102が出力する尤度1231をE_osdとする。
 このとき、本実施の形態で音声分離モデルを学習する際の音声分離モデルのロス関数はL_sep(W_true’,W_after)とする。
 W_true’は以下の式2で表すことができる。
 W_true’=E_osd×W_true+(1-E_osd)×W_before
  式2
Specifically, the model generating unit 107 generates the likelihood derivation model 170 as follows.
Here, the speech separation unit 103 is assumed to learn the speech separation model described in Patent Document 1 and separate the mixed speech into a plurality of separated speeches.
The loss function of the speech separation model used by the speech separation unit 103 to train the speech separation model is defined as L_sep(W_true, W_after), where W_true is the true speech signal, and W_after is the speech signal after separation.
The likelihood 1231 output by the section detection unit 102 is set as E_osd.
In this case, the loss function of the speech separation model when training the speech separation model in this embodiment is set to L_sep(W_true', W_after).
W_true' can be expressed by the following equation 2.
W_true'=E_osd×W_true+(1-E_osd)×W_before
Formula 2

 モデル生成部107は、例えば、図14に示すように、学習データ171、音声混合部172、特徴量抽出部173、教師生成部174及びモデル学習部175で構成される。 As shown in FIG. 14, the model generation unit 107 is composed of, for example, training data 171, an audio mixing unit 172, a feature extraction unit 173, a teacher generation unit 174, and a model training unit 175.

***実施の形態の効果の説明***
 本実施の形態では、混合音声区間の尤度を導出するためのモデルを生成する。このため、本実施の形態によれば、より正確に尤度を導出することができ、効果的に処理歪を低減することができる。
***Description of Effects of the Embodiment***
In this embodiment, a model for deriving the likelihood of a mixed speech segment is generated, which makes it possible to derive the likelihood more accurately and effectively reduce processing distortion.

 以上、実施の形態1~6を説明したが、これらの実施の形態のうち、2つ以上を組み合わせて実施しても構わない。
 あるいは、これらの実施の形態のうち、1つを部分的に実施しても構わない。
 あるいは、これらの実施の形態のうち、2つ以上を部分的に組み合わせて実施しても構わない。
 また、これらの実施の形態に記載された構成及び手順を必要に応じて変更してもよい。
Although the first to sixth embodiments have been described above, two or more of these embodiments may be combined and implemented.
Alternatively, one of these embodiments may be partially implemented.
Alternatively, two or more of these embodiments may be partially combined and implemented.
Furthermore, the configurations and procedures described in these embodiments may be modified as necessary.

***ユースケースについて***
 実施の形態1~6で説明した音声処理装置100のユースケースとして以下が想定される。
 (1)会議、講演等で複数の話者の声が重なっている場合に、各話者の声を分離して、録音、書き起こし等のために音声認識を行う。
 (2)対面での営業において、営業担当者と顧客の声が重なっている場合に、各話者の声を分離して録音し、各話者の声をエビデンスとして残す。
 (3)音声アシスタントに対するユーザの指示、質問等をスマートフォン、スマートスピーカー等で認識する際に他の人の声を除去する。これにより、スマートフォン、スマートスピーカー等はユーザの指示、質問等を正確に理解することができる。
 (4)聞こえにくい人のために、複数の話者の声を分離し、会話相手の声を増幅して聞こえやすくする補聴器、ヘッドセット等を開発する。
 (5)教育、研修等で音声言語によるコミュニケーションの能力を評価する際に、複数の話者の声を分離して、発話内容、流暢さを測定する。
 (6)医療、介護等の現場で患者、利用者の声を聞き取る際に、他の人の声を除去する。これにより、診断、介護サービスの質を向上させることができる。
***About Use Cases***
The following use cases are assumed for the speech processing device 100 described in the first to sixth embodiments.
(1) When multiple speakers' voices overlap during a conference, lecture, etc., the voices of each speaker are separated and speech recognition is performed for recording, transcription, etc.
(2) In face-to-face sales, when the voices of the salesperson and the customer overlap, the voices of each speaker are recorded separately and kept as evidence.
(3) When a smartphone, smart speaker, etc. recognizes a user's instructions, questions, etc. to a voice assistant, other people's voices are removed. This allows the smartphone, smart speaker, etc. to accurately understand the user's instructions, questions, etc.
(4) Develop hearing aids, headsets, etc. that can separate the voices of multiple speakers and amplify the voice of the person you are speaking with, making it easier for people with hearing difficulties to hear.
(5) When evaluating the ability to communicate through spoken language in education, training, etc., the voices of multiple speakers are separated and the content and fluency of their speech are measured.
(6) When listening to the voices of patients and users in medical and nursing care settings, other voices can be removed, improving the quality of diagnosis and nursing care services.

***ハードウェア構成の補足説明***
 ここで、音声処理装置100のハードウェア構成の補足説明を行う。
 図2に示すプロセッサ901は、プロセッシングを行うIC(Integrated Circuit)である。
 プロセッサ901は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)等である。
 図2に示す主記憶装置902は、RAM(Random Access Memory)である。
 図2に示す補助記憶装置903は、ROM(Read Only Memory)、フラッシュメモリ、HDD(Hard Disk Drive)等である。
 図2に示す通信装置904は、データの通信処理を実行する電子回路である。
 通信装置904は、例えば、通信チップ又はNIC(Network Interface Card)である。
***Additional information about hardware configuration***
Here, a supplementary explanation of the hardware configuration of the audio processing device 100 will be given.
The processor 901 shown in FIG. 2 is an integrated circuit (IC) that performs processing.
The processor 901 is a CPU (Central Processing Unit), a DSP (Digital Signal Processor), or the like.
The main storage device 902 shown in FIG. 2 is a RAM (Random Access Memory).
The auxiliary storage device 903 shown in FIG. 2 is a read-only memory (ROM), a flash memory, a hard disk drive (HDD), or the like.
The communication device 904 shown in FIG. 2 is an electronic circuit that performs data communication processing.
The communication device 904 is, for example, a communication chip or a NIC (Network Interface Card).

 また、補助記憶装置903には、OS(Operating System)も記憶されている。
 そして、OSの少なくとも一部がプロセッサ901により実行される。
 プロセッサ901はOSの少なくとも一部を実行しながら、図1、図8‐図11及び図13(以下、図1等という)に示す機能構成要素の機能を実現するプログラムを実行する。
 プロセッサ901がOSを実行することで、タスク管理、メモリ管理、ファイル管理、通信制御等が行われる。
 また、図1等に示す機能構成要素の処理の結果を示す情報、データ、信号値及び変数値の少なくともいずれかが、主記憶装置902、補助記憶装置903、プロセッサ901内のレジスタ及びキャッシュメモリの少なくともいずれかに記憶される。
 また、図1等に示す機能構成要素の機能を実現するプログラムは、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ(登録商標)ディスク、DVD等の可搬記録媒体に格納されていてもよい。そして、図1等に示す機能構成要素の機能を実現するプログラムが格納された可搬記録媒体を流通させてもよい。
The auxiliary storage device 903 also stores an OS (Operating System).
At least a part of the OS is executed by the processor 901 .
The processor 901 executes at least a part of the OS, and also executes programs that implement the functions of the functional components shown in FIGS. 1, 8 to 11, and 13 (hereinafter referred to as FIG. 1, etc.).
The processor 901 executes the OS, which performs task management, memory management, file management, communication control, and the like.
In addition, at least one of information, data, signal values, and variable values indicating the results of processing of the functional components shown in Figure 1, etc. is stored in at least one of the main memory device 902, the auxiliary memory device 903, and the register and cache memory within the processor 901.
1 and the like may be stored on a portable recording medium such as a magnetic disk, a flexible disk, an optical disk, a compact disk, a Blu-ray (registered trademark) disk, a DVD, etc. The portable recording medium on which the program for realizing the functions of the functional components shown in FIG. 1 and the like is stored may be distributed.

 また、図1等に示す機能構成要素の少なくともいずれかの「部」を、「回路」又は「工程」又は「手順」又は「処理」又は「サーキットリー」に読み替えてもよい。
 また、音声処理装置100は、処理回路により実現されてもよい。処理回路は、例えば、ロジックIC(Integrated Circuit)、GA(Gate Array)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)である。
 この場合は、図1等に示す機能構成要素は、それぞれ処理回路の一部として実現される。
 なお、本明細書では、プロセッサと処理回路との上位概念を、「プロセッシングサーキットリー」という。
 つまり、プロセッサと処理回路とは、それぞれ「プロセッシングサーキットリー」の具体例である。
Furthermore, at least one "part" of the functional components shown in FIG. 1 etc. may be read as a "circuit", a "step", a "procedure", a "process", or a "circuitry".
The audio processing device 100 may also be realized by a processing circuit, such as a logic IC (Integrated Circuit), a GA (Gate Array), an ASIC (Application Specific Integrated Circuit), or an FPGA (Field-Programmable Gate Array).
In this case, the functional components shown in FIG. 1 and the like are realized as parts of the processing circuit.
In this specification, the term "processing circuitry" refers to a generic concept that encompasses a processor and a processing circuit.
That is, a processor and a processing circuit are each specific examples of "processing circuitry."

 以下、本開示の諸態様を付記としてまとめて記載する。
(付記1)
 時系列の音声データから、複数の音声が混合している混合音声が存在する時間範囲である混合音声区間を検出する区間検出部と、
 前記混合音声区間の前記混合音声を前記複数の音声に分離する音声分離部とを有する音声処理装置。
(付記2)
 前記区間検出部は、
 前記音声データから、前記混合音声区間と、前記音声データの時系列において前記混合音声区間の直前に位置し単一音声が存在する時間範囲である直前区間と、前記音声データの時系列において前記混合音声区間の直後に位置し単一音声が存在する時間範囲である直後区間を検出する付記1に記載の音声処理装置。
(付記3)
 前記音声処理装置は、更に、
 前記音声分離部による分離により得られた前記複数の音声である複数の分離音声のうちの少なくともいずれかの分離音声を、いずれかの単一音声に接続する音声接続部を有する付記1又は2に記載の音声処理装置。
(付記4)
 前記音声接続部は、
 前記複数の分離音声のうちのいずれかの分離音声を、前記音声データの時系列において前記混合音声区間の前方に位置する時間範囲である前方区間に存在する単一音声である前方単一音声に接続し、
 前記複数の分離音声のうちのいずれかの分離音声を、前記音声データの時系列において前記混合音声区間の後方に位置する時間範囲である後方区間に存在する単一音声である後方単一音声に接続する付記3に記載の音声処理装置。
(付記5)
 前記区間検出部は、
 前記音声データから、前記混合音声区間と、前記音声データの時系列において前記混合音声区間の直前に位置し単一音声が存在する時間範囲である直前区間と、前記音声データの時系列において前記混合音声区間の直後に位置し単一音声が存在する時間範囲である直後区間とを検出し、
 前記音声分離部は、
 前記複数の分離音声から、前記直前区間に存在する単一音声である直前単一音声と同じ音声であると推定される分離音声を前方接続分離音声として抽出し、
 前記複数の分離音声から、前記直後区間に存在する単一音声である直後単一音声と同じ音声であると推定される分離音声を後方接続分離音声として抽出し、
 前記音声接続部は、
 前記前方接続分離音声を前記前方単一音声に接続し、
 前記後方接続分離音声を前記後方単一音声に接続する付記4に記載の音声処理装置。
(付記6)
 前記音声接続部は、
 前記前方接続分離音声の前記前方単一音声への接続と、前記後方接続分離音声の前記後方単一音声への接続とを、異なる音声出力チャネルで行う付記5に記載の音声処理装置。(付記7)
 前記音声接続部は、
 前記複数の分離音声に前記前方接続分離音声及び前記後方接続分離音声のいずれにも該当しない分離音声がある場合に、当該分離音声をいずれの時間範囲の単一音声にも接続せずに、前記前方接続分離音声の前記前方単一音声への接続が行われる音声出力チャネル及び前記後方接続分離音声の前記後方単一音声への接続が行われる音声出力チャネルとは異なる音声出力チャネルに当該分離音声を設定する付記5に記載の音声処理装置。
(付記8)
 前記音声接続部は、
 前記前方接続分離音声の前記前方単一音声への接続と、前記後方接続分離音声の前記後方単一音声への接続とを、同一の音声出力チャネルで行う付記5に記載の音声処理装置。(付記9)
 前記音声接続部は、
 前記同一の音声出力チャネルにおいて、前記前方単一音声と前記直前単一音声と前記前方接続分離音声とが接続されて得られた単一音声の後方に、前記後方接続分離音声と前記直後単一音声と前記後方単一音声とが接続されて得られた単一音声を設定する付記8に記載の音声処理装置。
(付記10)
 前記音声接続部は、
 前記複数の分離音声に前記前方接続分離音声及び前記後方接続分離音声のいずれにも該当しない分離音声がある場合に、当該分離音声をいずれの時間範囲の単一音声にも接続せずに、前記前方接続分離音声の前記前方単一音声への接続と、前記後方接続分離音声の前記後方単一音声への接続とが行われる音声出力チャネルに当該分離音声を設定する付記8に記載の音声処理装置。
(付記11)
 前記区間検出部は、
 単一音声が存在する時間範囲である単一音声区間では単一音声の特徴量が示され、前記混合音声区間では前記混合音声の特徴量が示される時系列の特徴量データを前記音声データとして取得し、前記特徴量データに示される特徴量を解析して前記特徴量データから前
記混合音声区間を検出し、
 前記音声分離部は、
 前記混合音声区間の前記混合音声の特徴量を前記複数の音声の特徴量に分離し、
 前記音声処理装置は、更に、
 前記分離部による分離により得られた前記複数の音声の特徴量から前記複数の音声である複数の分離音声を復元する音声復元部を有し、
 前記音声接続部は、
 前記音声復元部の復元により得られた前記複数の分離音声のうちの少なくともいずれかの分離音声を、いずれかの単一音声に接続する付記3に記載の音声処理装置。
(付記12)
 前記音声復元部は、
 前記混合音声区間の尤度を用いて前記複数の分離音声を復元する付記11に記載の音声処理装置。
(付記13)
 前記音声処理装置は、更に、
 前記区間検出部による前記混合音声区間の検出に適したサイズに前記音声データを分割する第1の分割部と、
 前記音声分離部による音声分割に適したサイズに前記音声データを分割する第2の分割部とを有し、
 前記区間検出部は、
 前記第1の分割部により分割された後の前記音声データから、前記混合音声区間を検出し、
 前記音声分離部は、
 前記第2の分割部により分割された後の前記音声データを用いて、前記混合音声区間の前記混合音声を前記複数の音声に分離する付記1に記載の音声処理装置。
(付記14)
 前記音声処理装置は、更に、
 前記区間検出部による前記混合音声区間の検出に適した特徴量が示される第1の特徴量データを生成する第1の特徴量抽出部と、
 前記音声分離部による音声分割に適した特徴量が示される第2の特徴量データを生成する第2の特徴量抽出部とを有し、
 前記区間検出部は、
 前記音声データとして前記第1の特徴量データを取得し、前記第1の特徴量データから、前記混合音声区間を検出し、
 前記音声分離部は、
 前記第2の特徴量データを用いて、前記混合音声区間の前記混合音声を前記複数の音声に分離する付記1に記載の音声処理装置。
(付記15)
 前記音声処理装置は、更に、
 ノイズと音声とを分離する音声強調を行う音声強調部を有し、
 前記区間検出部は、
 前記音声データでのノイズのレベルに応じて前記音声強調部に音声強調を行わせる時間範囲を決定する付記1に記載の音声処理装置。
(付記16)
 前記音声処理装置は、更に、
 前記混合音声区間の尤度の導出ためのモデルである尤度導出モデルを生成するモデル生成部を有し、
 前記音声復元部は、
 前記尤度導出モデルを用いて導出された前記混合音声区間の尤度を用いて前記複数の分離音声を復元する付記12に記載の音声処理装置。
(付記17)
 コンピュータが、時系列の音声データから、複数の音声が混合している混合音声が存在する時間範囲である混合音声区間を検出し、
 前記コンピュータが、前記混合音声区間の前記混合音声を前記複数の音声に分離する音声処理方法。
(付記18)
 時系列の音声データから、複数の音声が混合している混合音声が存在する時間範囲である混合音声区間を検出する区間検出処理と、
 前記混合音声区間の前記混合音声を前記複数の音声に分離する音声分離処理とをコンピュータに実行させる音声処理プログラム。
Various aspects of the present disclosure are summarized below as appendices.
(Appendix 1)
a section detection unit that detects a mixed voice section, which is a time range in which a mixed voice containing a plurality of voices exists, from time-series voice data;
a sound separation unit that separates the mixed sound in the mixed sound section into the plurality of sounds.
(Appendix 2)
The section detection unit
2. The audio processing device according to claim 1, further comprising: a processor for detecting, from the audio data, the mixed audio section; a preceding section which is a time range in which a single audio section is present and which is located immediately before the mixed audio section in the time series of the audio data; and a succeeding section which is a time range in which a single audio section is present and which is located immediately after the mixed audio section in the time series of the audio data.
(Appendix 3)
The audio processing device further comprises:
An audio processing device as described in Appendix 1 or 2, having an audio connection unit that connects at least one of the multiple separated audios obtained by separation by the audio separation unit to any single audio.
(Appendix 4)
The audio connection unit
connecting any one of the plurality of separated voices to a forward single voice that is a single voice existing in a forward section that is a time range located before the mixed voice section in the time series of the voice data;
4. The audio processing device according to claim 3, wherein one of the plurality of separated audio segments is connected to a subsequent single audio segment, which is a single audio segment present in a subsequent section, which is a time range located after the mixed audio segment in the time series of the audio data.
(Appendix 5)
The section detection unit
detecting from the audio data the mixed audio section, a preceding section which is a time range in which a single audio section is present and which is located immediately before the mixed audio section in the time series of the audio data, and a succeeding section which is a time range in which a single audio section is present and which is located immediately after the mixed audio section in the time series of the audio data;
The audio separation unit
extracting, from the plurality of separated sounds, a separated sound that is estimated to be the same sound as the immediately preceding single sound that is the single sound present in the immediately preceding section, as a forward connected separated sound;
extracting, from the plurality of separated sounds, a separated sound that is estimated to be the same as the immediately following single sound that is the single sound present in the immediately following section, as a backward connected separated sound;
The audio connection unit
Connecting the forward connected separated audio to the forward single audio;
5. The audio processing device of claim 4, wherein the rear connected separated audio is connected to the rear single audio.
(Appendix 6)
The audio connection unit
The audio processing device according to claim 5, wherein the connection of the forward connected separated audio to the forward single audio and the connection of the backward connected separated audio to the backward single audio are performed using different audio output channels. (Supplementary Note 7)
The audio connection unit
An audio processing device as described in Appendix 5, wherein when there is a separated audio among the multiple separated audios that does not correspond to either the forward connected separated audio or the backward connected separated audio, the separated audio is not connected to a single audio of any time range, and the separated audio is set to an audio output channel that is different from the audio output channel to which the forward connected separated audio is connected to the forward single audio and the audio output channel to which the backward connected separated audio is connected to the backward single audio.
(Appendix 8)
The audio connection unit
The audio processing device according to Supplementary Note 5, wherein the connection of the forward connected separated audio to the forward single audio and the connection of the backward connected separated audio to the backward single audio are performed on the same audio output channel. (Supplementary Note 9)
The audio connection unit
9. The audio processing device according to claim 8, wherein, in the same audio output channel, a single audio obtained by connecting the backward connected separated audio, the immediately following single audio, and the backward single audio is set behind a single audio obtained by connecting the forward single audio, the immediately preceding single audio, and the forward connected separated audio.
(Appendix 10)
The audio connection unit
An audio processing device as described in Appendix 8, in which, when there is a separated audio among the multiple separated audios that does not correspond to either the forward-connected separated audio or the backward-connected separated audio, the separated audio is set to an audio output channel where the forward-connected separated audio is connected to the forward single audio and the backward-connected separated audio is connected to the backward single audio, without connecting the separated audio to a single audio of any time range.
(Appendix 11)
The section detection unit
acquiring, as the speech data, time-series feature data in which a feature of a single speech is indicated in a single speech section, which is a time range in which a single speech exists, and a feature of the mixed speech is indicated in the mixed speech section; analyzing the feature data to detect the mixed speech section from the feature data;
The audio separation unit
Separating the feature of the mixed voice in the mixed voice section into feature of the plurality of voices;
The audio processing device further comprises:
a sound restoration unit that restores a plurality of separated sounds that are the plurality of sounds from feature quantities of the plurality of sounds obtained by separation by the separation unit,
The audio connection unit
4. The audio processing device according to claim 3, wherein at least one of the separated audio signals obtained by the restoration of the audio restoration unit is connected to one single audio signal.
(Appendix 12)
The audio restoration unit
12. The speech processing device according to claim 11, wherein the plurality of separated speeches are reconstructed using likelihoods of the mixed speech segments.
(Appendix 13)
The audio processing device further comprises:
a first division unit that divides the audio data into sizes suitable for detecting the mixed audio segment by the segment detection unit;
a second division unit that divides the audio data into sizes suitable for audio division by the audio separation unit,
The section detection unit
detecting the mixed voice section from the voice data divided by the first dividing unit;
The audio separation unit
2. The audio processing device according to claim 1, wherein the mixed audio in the mixed audio section is separated into the plurality of audio segments using the audio data divided by the second dividing unit.
(Appendix 14)
The audio processing device further comprises:
a first feature extraction unit that generates first feature data indicating features suitable for detecting the mixed voice segment by the segment detection unit;
a second feature extraction unit that generates second feature data indicating features suitable for audio segmentation by the audio separation unit;
The section detection unit
acquiring the first feature data as the audio data, and detecting the mixed audio section from the first feature data;
The audio separation unit
2. The speech processing device according to claim 1, wherein the mixed speech in the mixed speech section is separated into the plurality of speeches using the second feature data.
(Appendix 15)
The audio processing device further comprises:
a speech enhancement unit that performs speech enhancement to separate noise from speech;
The section detection unit
2. The speech processing device according to claim 1, wherein a time range for which the speech enhancement unit performs speech enhancement is determined according to a noise level in the speech data.
(Appendix 16)
The audio processing device further comprises:
a model generation unit that generates a likelihood derivation model that is a model for deriving the likelihood of the mixed voice section;
The audio restoration unit
13. The speech processing device according to claim 12, wherein the plurality of separated speeches are reconstructed using likelihoods of the mixed speech segments derived using the likelihood derivation model.
(Appendix 17)
A computer detects a mixed voice section, which is a time range in which a mixed voice containing a plurality of voices exists, from the time-series voice data;
The audio processing method, in which the computer separates the mixed audio in the mixed audio section into the plurality of audios.
(Appendix 18)
A section detection process for detecting a mixed voice section, which is a time range in which a mixed voice containing a plurality of voices exists, from the time-series voice data;
and a sound separation process for separating the mixed sound in the mixed sound section into the plurality of sounds.

 100 音声処理装置、101 特徴量抽出部、102 区間検出部、103 音声分離部、104 音声復元部、105 音声接続部、106 音声強調部、107 モデル生成部、108 モデル記憶部、110 特徴量データ、120 適用区間特徴量、121 音声区間、122 直前区間、123 混合音声区間、124 直後区間、125 適用区間、126 分離音声、127 分離音声、128 直前単一音声、129 直後単一音声、130 分離音声情報、131 第1の分割部、132 第2の分割部、140 復元音声情報、141 第1の特徴量抽出部、142 第2の特徴量抽出部、160 音声強調適用区間特徴量、170 尤度導出モデル、171 学習データ、172 音声混合部、173 特徴量抽出部、174 教師生成部、175 モデル学習部、200 混合音声信号列、201 前方単一音声信号、202 後方単一音声信号、203 前方単一音声信号、204 後方単一音声信号、300 分離音声信号列、901 プロセッサ、902 主記憶装置、903 補助記憶装置、904 通信装置、1131 分割特徴量データ、1132 分割特徴量データ、1141 第1の特徴量データ、1142 第2の特徴量データ、1200 非混合音声区間定義情報、1201 前方区間、1202 後方区間、1203 前方区間、1204 後方区間、1230 適用区間定義情報、1231 尤度、1240 適用区間定義情報、1251 音声強調区間特徴量、1252 適用区間定義情報、1255 音声強調区間、1270 分離音声、2020 音声信号。 100 Speech processing device, 101 Feature extraction unit, 102 Section detection unit, 103 Speech separation unit, 104 Speech restoration unit, 105 Speech connection unit, 106 Speech enhancement unit, 107 Model generation unit, 108 Model storage unit, 110 Feature data, 120 Application section feature, 121 Speech section, 122 Previous section, 123 Mixed speech section, 124 Next section, 125 Application section, 126 Separation Speech, 127 separated speech, 128 immediately preceding single speech, 129 immediately following single speech, 130 separated speech information, 131 first segmentation unit, 132 second segmentation unit, 140 restored speech information, 141 first feature extraction unit, 142 second feature extraction unit, 160 speech enhancement application section features, 170 likelihood derivation model, 171 training data, 172 speech mixing unit, 173 feature extraction unit, 174 teacher Generation unit, 175 model learning unit, 200 mixed audio signal sequence, 201 front single audio signal, 202 rear single audio signal, 203 front single audio signal, 204 rear single audio signal, 300 separated audio signal sequence, 901 processor, 902 main memory device, 903 auxiliary memory device, 904 communication device, 1131 split feature data, 1132 split feature data, 1141 first feature data data, 1142 second feature data, 1200 unmixed speech section definition information, 1201 forward section, 1202 backward section, 1203 forward section, 1204 backward section, 1230 application section definition information, 1231 likelihood, 1240 application section definition information, 1251 speech enhancement section feature, 1252 application section definition information, 1255 speech enhancement section, 1270 separated speech, 2020 speech signal.

Claims (18)

 時系列の音声データから、複数の音声が混合している混合音声が存在する時間範囲である混合音声区間を検出する区間検出部と、
 前記混合音声区間の前記混合音声を前記複数の音声に分離する音声分離部とを有する音声処理装置。
a section detection unit that detects a mixed voice section, which is a time range in which a mixed voice containing a plurality of voices exists, from time-series voice data;
a sound separation unit that separates the mixed sound in the mixed sound section into the plurality of sounds.
 前記区間検出部は、
 前記音声データから、前記混合音声区間と、前記音声データの時系列において前記混合音声区間の直前に位置し単一音声が存在する時間範囲である直前区間と、前記音声データの時系列において前記混合音声区間の直後に位置し単一音声が存在する時間範囲である直後区間を検出する請求項1に記載の音声処理装置。
The section detection unit
2. The audio processing device according to claim 1, further comprising: a step of detecting, from the audio data, the mixed audio section; a preceding section which is a time range in which a single audio section is present and which is located immediately before the mixed audio section in the time series of the audio data; and a succeeding section which is a time range in which a single audio section is present and which is located immediately after the mixed audio section in the time series of the audio data.
 前記音声処理装置は、更に、
 前記音声分離部による分離により得られた前記複数の音声である複数の分離音声のうちの少なくともいずれかの分離音声を、いずれかの単一音声に接続する音声接続部を有する請求項1又は2に記載の音声処理装置。
The audio processing device further comprises:
The audio processing device according to claim 1 , further comprising an audio connection unit that connects at least one of a plurality of separated audios, which are the plurality of audios obtained by separation by the audio separation unit, to one single audio.
 前記音声接続部は、
 前記複数の分離音声のうちのいずれかの分離音声を、前記音声データの時系列において前記混合音声区間の前方に位置する時間範囲である前方区間に存在する単一音声である前方単一音声に接続し、
 前記複数の分離音声のうちのいずれかの分離音声を、前記音声データの時系列において前記混合音声区間の後方に位置する時間範囲である後方区間に存在する単一音声である後方単一音声に接続する請求項3に記載の音声処理装置。
The audio connection unit
connecting any one of the plurality of separated voices to a forward single voice that is a single voice existing in a forward section that is a time range located before the mixed voice section in the time series of the voice data;
The audio processing device according to claim 3 , wherein any one of the plurality of separated audio segments is connected to a subsequent single audio segment that is a single audio segment present in a subsequent section that is a time range that is located after the mixed audio segment in the time series of the audio data.
 前記区間検出部は、
 前記音声データから、前記混合音声区間と、前記音声データの時系列において前記混合音声区間の直前に位置し単一音声が存在する時間範囲である直前区間と、前記音声データの時系列において前記混合音声区間の直後に位置し単一音声が存在する時間範囲である直後区間とを検出し、
 前記音声分離部は、
 前記複数の分離音声から、前記直前区間に存在する単一音声である直前単一音声と同じ音声であると推定される分離音声を前方接続分離音声として抽出し、
 前記複数の分離音声から、前記直後区間に存在する単一音声である直後単一音声と同じ音声であると推定される分離音声を後方接続分離音声として抽出し、
 前記音声接続部は、
 前記前方接続分離音声を前記前方単一音声に接続し、
 前記後方接続分離音声を前記後方単一音声に接続する請求項4に記載の音声処理装置。
The section detection unit
detecting, from the audio data, the mixed audio section, a preceding section which is a time range in which a single audio section is present and which is located immediately before the mixed audio section in the time series of the audio data, and a succeeding section which is a time range in which a single audio section is present and which is located immediately after the mixed audio section in the time series of the audio data;
The audio separation unit
extracting, from the plurality of separated sounds, a separated sound that is estimated to be the same sound as the immediately preceding single sound that is the single sound present in the immediately preceding section, as a forward connected separated sound;
extracting, from the plurality of separated sounds, a separated sound that is estimated to be the same as the immediately following single sound that is the single sound present in the immediately following section, as a backward connected separated sound;
The audio connection unit
Connecting the forward connected separated audio to the forward single audio;
The audio processing device according to claim 4 , wherein the rear connected separated audio is connected to the rear single audio.
 前記音声接続部は、
 前記前方接続分離音声の前記前方単一音声への接続と、前記後方接続分離音声の前記後方単一音声への接続とを、異なる音声出力チャネルで行う請求項5に記載の音声処理装置。
The audio connection unit
6. The audio processing device according to claim 5, wherein the connection of the forward connected separated audio to the forward single audio and the connection of the backward connected separated audio to the backward single audio are performed in different audio output channels.
 前記音声接続部は、
 前記複数の分離音声に前記前方接続分離音声及び前記後方接続分離音声のいずれにも該当しない分離音声がある場合に、当該分離音声をいずれの時間範囲の単一音声にも接続せずに、前記前方接続分離音声の前記前方単一音声への接続が行われる音声出力チャネル及び前記後方接続分離音声の前記後方単一音声への接続が行われる音声出力チャネルとは異
なる音声出力チャネルに当該分離音声を設定する請求項5に記載の音声処理装置。
The audio connection unit
6. The audio processing device according to claim 5, wherein when there is a separated audio among the plurality of separated audios that does not correspond to either the forward-connected separated audio or the backward-connected separated audio, the separated audio is not connected to a single audio of any time range, and the separated audio is set to an audio output channel that is different from the audio output channel to which the forward-connected separated audio is connected to the forward single audio and the audio output channel to which the backward-connected separated audio is connected to the backward single audio.
 前記音声接続部は、
 前記前方接続分離音声の前記前方単一音声への接続と、前記後方接続分離音声の前記後方単一音声への接続とを、同一の音声出力チャネルで行う請求項5に記載の音声処理装置。
The audio connection unit
6. The audio processing device according to claim 5, wherein the connection of the forward connected separated audio to the forward single audio and the connection of the backward connected separated audio to the backward single audio are performed on the same audio output channel.
 前記音声接続部は、
 前記同一の音声出力チャネルにおいて、前記前方単一音声と前記直前単一音声と前記前方接続分離音声とが接続されて得られた単一音声の後方に、前記後方接続分離音声と前記直後単一音声と前記後方単一音声とが接続されて得られた単一音声を設定する請求項8に記載の音声処理装置。
The audio connection unit
9. The audio processing device according to claim 8, wherein, in the same audio output channel, a single audio obtained by connecting the backward connected separated audio, the immediately following single audio, and the backward single audio is set behind a single audio obtained by connecting the forward single audio, the immediately preceding single audio, and the forward connected separated audio.
 前記音声接続部は、
 前記複数の分離音声に前記前方接続分離音声及び前記後方接続分離音声のいずれにも該当しない分離音声がある場合に、当該分離音声をいずれの時間範囲の単一音声にも接続せずに、前記前方接続分離音声の前記前方単一音声への接続と、前記後方接続分離音声の前記後方単一音声への接続とが行われる音声出力チャネルに当該分離音声を設定する請求項8又は9に記載の音声処理装置。
The audio connection unit
10. The audio processing device according to claim 8 or 9, wherein when there is a separated audio among the plurality of separated audios that does not correspond to either the forward-connected separated audio or the backward-connected separated audio, the separated audio is set to an audio output channel in which the forward-connected separated audio is connected to the forward single audio and the backward-connected separated audio is connected to the backward single audio, without connecting the separated audio to a single audio of either time range.
 前記区間検出部は、
 単一音声が存在する時間範囲である単一音声区間では単一音声の特徴量が示され、前記混合音声区間では前記混合音声の特徴量が示される時系列の特徴量データを前記音声データとして取得し、前記特徴量データに示される特徴量を解析して前記特徴量データから前記混合音声区間を検出し、
 前記音声分離部は、
 前記混合音声区間の前記混合音声の特徴量を前記複数の音声の特徴量に分離し、
 前記音声処理装置は、更に、
 前記分離部による分離により得られた前記複数の音声の特徴量から前記複数の音声である複数の分離音声を復元する音声復元部を有し、
 前記音声接続部は、
 前記音声復元部の復元により得られた前記複数の分離音声のうちの少なくともいずれかの分離音声を、いずれかの単一音声に接続する請求項3-10のうちのいずれか一項に記載の音声処理装置。
The section detection unit
acquiring, as the speech data, time-series feature data in which a feature of a single speech is indicated in a single speech section, which is a time range in which a single speech exists, and a feature of the mixed speech is indicated in the mixed speech section; analyzing the feature data to detect the mixed speech section from the feature data;
The audio separation unit
Separating the feature of the mixed voice in the mixed voice section into feature of the plurality of voices;
The audio processing device further comprises:
a sound restoration unit that restores a plurality of separated sounds that are the plurality of sounds from feature quantities of the plurality of sounds obtained by separation by the separation unit,
The audio connection unit
The audio processing device according to any one of claims 3 to 10, wherein at least one of the separated audio signals obtained by the restoration of the audio restoration unit is connected to one single audio signal.
 前記音声復元部は、
 前記混合音声区間の尤度を用いて前記複数の分離音声を復元する請求項11に記載の音声処理装置。
The audio restoration unit
The speech processing device according to claim 11 , wherein the plurality of separated speeches are reconstructed using likelihoods of the mixed speech segments.
 前記音声処理装置は、更に、
 前記区間検出部による前記混合音声区間の検出に適したサイズに前記音声データを分割する第1の分割部と、
 前記音声分離部による音声分割に適したサイズに前記音声データを分割する第2の分割部とを有し、
 前記区間検出部は、
 前記第1の分割部により分割された後の前記音声データから、前記混合音声区間を検出し、
 前記音声分離部は、
 前記第2の分割部により分割された後の前記音声データを用いて、前記混合音声区間の前記混合音声を前記複数の音声に分離する請求項1-12のうちのいずれか一項に記載の音声処理装置。
The audio processing device further comprises:
a first division unit that divides the audio data into sizes suitable for detecting the mixed audio segment by the segment detection unit;
a second division unit that divides the audio data into sizes suitable for audio division by the audio separation unit,
The section detection unit
detecting the mixed voice section from the voice data divided by the first dividing unit;
The audio separation unit
The audio processing device according to any one of claims 1 to 12, wherein the mixed audio in the mixed audio section is separated into the plurality of audio signals using the audio data divided by the second dividing unit.
 前記音声処理装置は、更に、
 前記区間検出部による前記混合音声区間の検出に適した特徴量が示される第1の特徴量データを生成する第1の特徴量抽出部と、
 前記音声分離部による音声分割に適した特徴量が示される第2の特徴量データを生成する第2の特徴量抽出部とを有し、
 前記区間検出部は、
 前記音声データとして前記第1の特徴量データを取得し、前記第1の特徴量データから、前記混合音声区間を検出し、
 前記音声分離部は、
 前記第2の特徴量データを用いて、前記混合音声区間の前記混合音声を前記複数の音声に分離する請求項1-13のうちのいずれか一項に記載の音声処理装置。
The audio processing device further comprises:
a first feature extraction unit that generates first feature data indicating features suitable for detecting the mixed voice segment by the segment detection unit;
a second feature extraction unit that generates second feature data indicating features suitable for audio segmentation by the audio separation unit;
The section detection unit
acquiring the first feature data as the audio data, and detecting the mixed audio section from the first feature data;
The audio separation unit
The voice processing device according to any one of claims 1 to 13, wherein the mixed voice in the mixed voice section is separated into the plurality of voices using the second feature data.
 前記音声処理装置は、更に、
 ノイズと音声とを分離する音声強調を行う音声強調部を有し、
 前記区間検出部は、
 前記音声データでのノイズのレベルに応じて前記音声強調部に音声強調を行わせる時間範囲を決定する請求項1-14のうちのいずれか一項に記載の音声処理装置。
The audio processing device further comprises:
a speech enhancement unit that performs speech enhancement to separate noise from speech;
The section detection unit
15. The speech processing device according to claim 1, wherein a time range for which the speech enhancement unit performs speech enhancement is determined in accordance with a noise level in the speech data.
 前記音声処理装置は、更に、
 前記混合音声区間の尤度の導出ためのモデルである尤度導出モデルを生成するモデル生成部を有し、
 前記音声復元部は、
 前記尤度導出モデルを用いて導出された前記混合音声区間の尤度を用いて前記複数の分離音声を復元する請求項12に記載の音声処理装置。
The audio processing device further comprises:
a model generation unit that generates a likelihood derivation model that is a model for deriving the likelihood of the mixed voice section;
The audio restoration unit
The speech processing device according to claim 12 , wherein the plurality of separated speeches are reconstructed using the likelihood of the mixed speech segments derived using the likelihood derivation model.
 コンピュータが、時系列の音声データから、複数の音声が混合している混合音声が存在する時間範囲である混合音声区間を検出し、
 前記コンピュータが、前記混合音声区間の前記混合音声を前記複数の音声に分離する音声処理方法。
A computer detects a mixed voice section, which is a time range in which a mixed voice containing a plurality of voices exists, from the time-series voice data;
The audio processing method, in which the computer separates the mixed audio in the mixed audio section into the plurality of audios.
 時系列の音声データから、複数の音声が混合している混合音声が存在する時間範囲である混合音声区間を検出する区間検出処理と、
 前記混合音声区間の前記混合音声を前記複数の音声に分離する音声分離処理とをコンピュータに実行させる音声処理プログラム。
a section detection process for detecting a mixed voice section, which is a time range in which a mixed voice containing a plurality of voices exists, from the time-series voice data;
and a sound separation process for separating the mixed sound in the mixed sound section into the plurality of sounds.
PCT/JP2024/037025 2024-07-18 2024-10-17 Voice processing device, voice processing method, and voice processing program Pending WO2026018464A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2024-114403 2024-07-18
JP2024114403 2024-07-18

Publications (1)

Publication Number Publication Date
WO2026018464A1 true WO2026018464A1 (en) 2026-01-22

Family

ID=98437007

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2024/037025 Pending WO2026018464A1 (en) 2024-07-18 2024-10-17 Voice processing device, voice processing method, and voice processing program

Country Status (1)

Country Link
WO (1) WO2026018464A1 (en)

Similar Documents

Publication Publication Date Title
Zmolikova et al. Neural target speech extraction: An overview
Luo et al. Speaker-independent speech separation with deep attractor network
Adeel et al. Lip-reading driven deep learning approach for speech enhancement
JP7525648B2 (en) End-to-end multi-speaker overlapping speech recognition
CN107146624B (en) A speaker verification method and device
US11823685B2 (en) Speech recognition
JP2019522810A (en) Neural network based voiceprint information extraction method and apparatus
Gogate et al. Visual Speech In Real Noisy Environments (VISION): A Novel Benchmark Dataset and Deep Learning-Based Baseline System.
EP3951777A1 (en) Signal processing device, method, and program
Nasib et al. A real time speech to text conversion technique for bengali language
KR20200083685A (en) Method for real-time speaker determination
JP2017003622A (en) Voice quality conversion method and voice quality conversion device
US20220198140A1 (en) Live audio adjustment based on speaker attributes
Shao et al. Stream weight estimation for multistream audio–visual speech recognition in a multispeaker environment
Soboleva et al. Replacing human audio with synthetic audio for on-device unspoken punctuation prediction
JP7160095B2 (en) ATTRIBUTE IDENTIFIER, ATTRIBUTE IDENTIFICATION METHOD, AND PROGRAM
Wang et al. Disentangling the impacts of language and channel variability on speech separation networks
CN118369713A (en) Language-independent multilingual end-to-end streaming on-device ASR system
WO2026018464A1 (en) Voice processing device, voice processing method, and voice processing program
JP2008145988A (en) Noise detection apparatus and noise detection method
Li et al. A visual-pilot deep fusion for target speech separation in multitalker noisy environment
US20240296826A1 (en) System and Method for Multi-Channel Speech Privacy Processing
JP7613587B2 (en) Signal processing device, signal processing method, and signal processing program
JP6526602B2 (en) Speech recognition apparatus, method thereof and program
Matsuda et al. Acoustic discriminability of unconscious laughter and scream during game-play