JP2012008391A - Device and method for changing voice, and confidential communication system for voice information - Google Patents
Device and method for changing voice, and confidential communication system for voice information Download PDFInfo
- Publication number
- JP2012008391A JP2012008391A JP2010145038A JP2010145038A JP2012008391A JP 2012008391 A JP2012008391 A JP 2012008391A JP 2010145038 A JP2010145038 A JP 2010145038A JP 2010145038 A JP2010145038 A JP 2010145038A JP 2012008391 A JP2012008391 A JP 2012008391A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- voice
- unit
- target portion
- change
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
Description
本発明は、音声を変更する音声変更装置、音声変更方法およびその音声変更装置を備える音声情報秘話システムに関する。 The present invention relates to a voice changing device that changes voice, a voice changing method, and a voice information secret talk system including the voice changing device.
個人情報保護法などの施行により銀行やオフィスにおける会話情報の保護の必要性が高まっている。その手段として、従来から物理的に空間を分ける遮音・防音や、オープンプランオフィスなどにおいて会話音声を別の雑音・音楽などで隠蔽するBGM・マスキングシステムなどが提案されてきた。 With the enforcement of the Personal Information Protection Law, there is an increasing need to protect conversation information in banks and offices. Conventionally, sound insulation / soundproofing that physically separates the space, BGM / masking system that conceals conversational speech with other noise / music, etc. in an open plan office have been proposed.
音声情報の隠蔽という目的については従来から、
(1)対象音声を他の定常的な雑音で隠蔽するマスキングシステム(Masking System)
(2)室内の暗騒音や空調騒音で隠蔽するシェーディングシステム(Shading System)
(3)遮音・防音(対象室を空間的に区画し、音響的に分離する)
等があった。(1)の例は音声の存在そのものを(無理やり)消し去ろうとするもので、エネルギマスキング(Energy Masking)と位置付けられる。これは例えばオープンプランオフィスのブースや会議室に使用されている。
For the purpose of concealing voice information,
(1) Masking system that masks the target speech with other stationary noise
(2) Shading system concealed by indoor background noise and air conditioning noise
(3) Sound insulation / sound insulation (the target room is spatially separated and acoustically separated)
Etc. The example (1) attempts to (forcefully) erase the presence of speech, and is positioned as energy masking. This is used, for example, in an open plan office booth or conference room.
(1)のシステムの例が非特許文献1に報告されている。そこでは、天井内部などに専用のジェネレータやスピーカを設置し、マスキング音を発生して音声の隠蔽を行っている。その原理は、会話の邪魔にならない程度の(会話とは脈絡のない)音楽や雑音を生成し、いわゆるS/Nを低減して音声の内容を隠蔽したり、明瞭度・了解度を低減したりして、会話内容を理解できない程度まで隠蔽しようとするものである。システムには会話レベルや室内暗騒音などに応じてマスキング音を最適レベルに制御する制御装置(信号処理装置)・電力増幅器などが含まれる。
An example of the system (1) is reported in
また、この技術を利用した例としては、パーティションからブース内へマスキング用のノイズを放射し、対象空間領域をブースに限定することにより、室内全体の騒音レベルが上昇するのを抑えようとしたものがある。 In addition, as an example using this technology, noise for masking was radiated from the partition into the booth, and the target space area was limited to the booth to suppress the increase in the noise level in the entire room. There is.
(2)のシステムの例が非特許文献2に報告されている。そこでは、放射するマスキングノイズとして、室内の暗騒音そのものや、日常的に身近な空調騒音を使用した「Sound Shading System」が報告されている。このシステムでは、銀行の窓口などにおけるプライバシーの確保を目的とした視覚遮断的なパーティションに対し、会話のプライバシー保護を目的としてパーティション頂部にスピーカを設置する。このスピーカからマスキング音を再生し、それによりパーティションの反対側にいる人への会話内容の漏洩・伝達の阻止を図る。再生する音には街の雑踏をもとに生成した音や、その部屋の空調騒音を使用する。
An example of the system (2) is reported in
(3)のシステムの例としては、別室として区画する遮音や、パーティションなどで区画する防音がある。 As an example of the system of (3), there is sound insulation partitioned as a separate room or soundproof partitioned by a partition.
本発明者は、上述のマスキング/シェーディング技術に関して以下の課題を認識した。
(I)原音声とは脈絡のない新たな音を放射するので、違和感を伴い、またマスカーは原音声に対応して常に最適、あるいは最大効果のあるものとは言えない。
(II)音声発生のないいわゆる「無音時」にも騒音、つまりマスキング音が聞こえ得る。したがって、室内空間の騒音レベルを確実に上昇させ得る。
(III)会話とは関係のない別の音(騒音・音楽)を放射することにより、発声者・会話者・その他の在室者に少なからず違和感を与え得る。
(IV)音声の情報隠蔽は、性質の異なるもの同士は区別して認識する、という聴覚の性質により、雑音やBGMでは奏功しにくいという基本的な問題を含む(包絡線(エンベロープ)やスペクトルが似通った音声波形同士の方が聴覚認識上、区別されにくい)。
The inventor has recognized the following problems regarding the above-described masking / shading technique.
(I) Since the original sound emits a new sound that is unrelated to the original sound, it is accompanied by a sense of incongruity, and the masker is not always optimal or has the maximum effect corresponding to the original sound.
(II) Noise, that is, a masking sound can be heard even when the sound is not generated. Therefore, the noise level in the indoor space can be reliably increased.
(III) By emitting another sound (noise / music) unrelated to conversation, it is possible to give a sense of incongruity to a speaker, a talker, and other people in the room.
(IV) Concealment of speech information includes the basic problem that it is difficult to succeed with noise and BGM due to the auditory nature of distinguishing and recognizing different things (envelope and spectrum are similar) Audio waveforms are more difficult to distinguish for auditory recognition).
(I)については、経験上原音声を完全にマスクするのに必要な雑音の相対レベルは略15dBである(非特許文献3参照)。この視点から見ると、雑音や音楽を流すことにより音声を隠蔽するという方法では、原音声に対してそれ以上のかなり大きな音量の雑音や音楽が必要となり、maskingであれshadingであれ、室内騒音レベルを大きく上昇させ得る。 As for (I), the relative level of noise necessary for completely masking the original voice is empirically about 15 dB (see Non-Patent Document 3). From this point of view, the method of concealing sound by flowing noise and music requires much louder noise and music than the original sound, and whether it is masking or shading, the room noise level Can be greatly increased.
(II)については、発話がない時にも音がするという違和感を伴う。またそもそも発話がない時に雑音や音楽を流すことは会話内容の隠蔽の観点からは無駄と言える。また無駄であるばかりでなく、室の等価騒音レベル(LAeq:A-weighted equivalent sound level=A特性で補正した音声信号の一定区間の自乗平均音圧レベル、つまり平均的な騒音レベル)を上昇させる結果となりうる。雑音の代わりに音楽や音声から作成した「HSL雑音(Human Speech-like noise)」(非特許文献4参照)を流した場合でも、一般的なBGMとの区別は困難である。 Regarding (II), there is a sense of incongruity that a sound is produced even when there is no utterance. In the first place, playing noise and music when there is no utterance is useless from the viewpoint of concealing conversation content. Not only is it wasteful, but it also increases the room equivalent noise level (L Aeq : A-weighted equivalent sound level = the root mean square sound pressure level of the audio signal corrected with the A characteristic, that is, the average noise level). Can result. Even when “HSL noise (Human Speech-like noise)” (see Non-Patent Document 4) created from music or voice is used instead of noise, it is difficult to distinguish from general BGM.
また、(3)のアプローチについては、費用的にかなり大きなものとなり、また開放感を阻害するのでオープンプランオフィスなどでの使用には適さない。 In addition, the approach (3) is considerably large in cost and hinders a feeling of opening, and is not suitable for use in an open plan office or the like.
また、特許文献1に記載のサウンドマスキングシステムでは、入力音(声)の話速を分析し、これに応じたフレーム長で分割して処理し、処理音声を合成する方法が述べられている。しかしながら、このシステムは「約2秒単位で入力音(声)を一時記憶し一連の処理を行う」ので、処理音声はそれがマスキング対象とする音声とは別の、過去の音声から生成される。したがって、処理音声とそれがマスキング対象とする音声との関連性は薄く、マスキング効果は十分とは言えない。
Further, in the sound masking system described in
本発明はこうした課題に鑑みてなされたものであり、その目的は、騒音レベルや受聴者の不快感の増長を抑えた上で音声の内容を隠蔽する技術の提供にある。 The present invention has been made in view of these problems, and an object of the present invention is to provide a technique for concealing audio content while suppressing an increase in noise level and listener discomfort.
本発明のある態様は、音声変更装置に関する。この音声変更装置は、発話中の音声を表す音声信号から、音声信号の波形に基づいて変更対象部分の信号を抽出する部分抽出部と、部分抽出部によって抽出された変更対象部分の信号を変更する部分変更部と、部分変更部によって変更された変更対象部分の信号を、発話中の音声が受聴されている領域に音声を出力可能な音声出力手段に出力する出力部と、を備える。 One embodiment of the present invention relates to a sound changing device. The voice changing device is configured to extract a signal of a change target part from a voice signal representing a voice being uttered based on a waveform of the voice signal, and change a signal of the change target part extracted by the partial extraction part. And an output unit that outputs the signal of the change target portion changed by the partial change unit to a voice output unit capable of outputting voice to an area where the voice being spoken is received.
この態様によると、音声信号のうち変更対象とする部分をその音声信号の波形に基づいて決めることができる。 According to this aspect, it is possible to determine the part to be changed in the audio signal based on the waveform of the audio signal.
本発明の別の態様は、音声情報秘話システムである。この音声情報秘話システムは、発話中の音声を受け、それを表す音声信号を生成する集音手段と、集音手段によって生成された音声信号を変更する音声変更装置と、音声変更装置によって変更された音声信号を音声に変換して発話中の音声が受聴されている領域に出力する音声出力手段と、を備える。音声変更装置は、集音手段によって生成された音声信号から、音声信号の波形に基づいて変更対象部分の信号を抽出する部分抽出部と、部分抽出部によって抽出された変更対象部分の信号を変更する部分変更部と、部分変更部によって変更された変更対象部分の信号を音声出力手段に出力する出力部と、を含む。 Another aspect of the present invention is a speech information secret talk system. The voice information secret speech system is modified by a sound collecting unit that receives a voice being uttered and generates a voice signal representing the voice, a voice changing device that changes a voice signal generated by the sound collecting unit, and a voice changing device. Voice output means for converting the received voice signal into a voice and outputting the voice signal to a region where the voice being spoken is received. The sound changing device includes a partial extraction unit that extracts a signal of a change target portion based on a waveform of the sound signal from the sound signal generated by the sound collecting unit, and changes the signal of the change target portion extracted by the partial extraction unit. And an output unit that outputs the signal of the change target portion changed by the partial change unit to the audio output unit.
なお、以上の構成要素の任意の組み合わせや、本発明の構成要素や表現を装置、方法、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で相互に置換したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described constituent elements, or those obtained by replacing the constituent elements and expressions of the present invention with each other between apparatuses, methods, systems, computer programs, recording media storing computer programs, and the like are also included in the present invention. It is effective as an embodiment of
本発明によれば、騒音レベルや受聴者の不快感の増長を抑えた上で音声の内容を隠蔽できる。 ADVANTAGE OF THE INVENTION According to this invention, the content of an audio | voice can be concealed, suppressing the increase in a noise level and a listener's discomfort.
以下、本発明を好適な実施の形態をもとに図面を参照しながら説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。 The present invention will be described below based on preferred embodiments with reference to the drawings. The same or equivalent components, members, and processes shown in the drawings are denoted by the same reference numerals, and repeated descriptions are omitted as appropriate.
特にオフィスなどにおいては、オープンプランの空間が有する開放性やコミュニケーションの円滑性を損なわずに音声情報、つまり音声の内容だけが隠蔽されることが望ましい。しかしながら、従来のBGMやマスキングを使用する技術は、基本的には原音声とは性質の異なる、別過程で作成した音を原音声とは脈絡なく加えるので、聴覚的な違和感や室内の暗騒音を上昇させてしまうという嫌いがあった。本発明の実施の形態はマイクロホンなどにより集音した音声信号そのものの構造を実質的に実時間で変更することにより室内の暗騒音を上昇させることなく会話の内容を、理想的には会話の内容のみを、隠蔽し、円滑で快適な秘話環境を実現する。 Particularly in offices and the like, it is desirable to conceal only the voice information, that is, the voice content without impairing the openness and smoothness of communication of the open plan space. However, the conventional technology using BGM and masking basically adds a sound that is different in nature from the original sound and created in a separate process without any relation to the original sound. There was a dislike that would raise. The embodiment of the present invention changes the structure of the audio signal itself collected by a microphone or the like substantially in real time, thereby improving the conversation content without increasing the background noise in the room, ideally the conversation content. Hides only, and realizes a smooth and comfortable secret story environment.
図1は、マスキングに関する従来のアプローチと実施の形態に係るアプローチをカテゴリに分けて示す説明図である。(a)は、電気音響を用いたSR(Sound Reinforcement)/PA(Public Address)である。これらは音量や明瞭度を高めて「よく聞こえるようにする」従来技術である。(f)は、遮音(Sound Insulation)であり、空間を音響的に分離しできるだけ「聞こえないようにする」従来技術である。これらに対して実施の形態に係るアプローチは(e)のSD(Speech Deformation)であり、会話者本人の原音声を処理して準実時間で出力することにより、聞こえる聞こえないではなく会話内容を「分からなくする」一種の音声情報撹乱(聴覚翻弄)技術である。また、従来技術による(b)EMや(c)SSや(d)IMが多かれ少なかれ室内あるいは対象空間領域の騒音レベルを上昇させて不快感や違和感を増加させ得るのに対し、(e)のSDではほとんど騒音レベルの上昇を伴わない。 FIG. 1 is an explanatory diagram showing a conventional approach related to masking and an approach according to an embodiment divided into categories. (A) is SR (Sound Reinforcement) / PA (Public Address) using electroacoustics. These are conventional technologies that increase the volume and clarity and “make them sound better”. (F) is Sound Insulation, which is a conventional technique for acoustically separating a space and making it “not audible” as much as possible. On the other hand, the approach according to the embodiment is SD (Speech Deformation) of (e). By processing the original voice of the conversation person and outputting it in near real time, the conversation contents are not heard but not heard. It is a kind of voice information disruption (hearing) technique that makes it “unknown”. Further, (b) EM, (c) SS, and (d) IM according to the prior art can increase the noise level in the room or the target space region to increase the unpleasantness and discomfort, SD hardly causes an increase in noise level.
本発明の実施の形態の主な立脚点は、言語の認識・理解が、特に日本語の場合は、音声の子音部分に大きく依存するという本発明者の認識である。この子音部分が変化すると、たとえば「雲(KUMO)」は「RUTO」となり、言葉として理解することができない。
また、聴覚音声認識(HSR:Human Speech Recognition)が音声信号のキャリア(搬送波)より包絡線遷移などのアーティキュレーションにより強く依存することに基づき、原音声の包絡線の「略一山」を処理対象単位として時間反転または時間回転すると、スペクトルも包絡線形状も原音声と類似するので音声情報撹乱が効果的に機能する。
The main standpoint of the embodiment of the present invention is the recognition of the present inventor that language recognition and understanding depend largely on the consonant part of speech, particularly in the case of Japanese. If this consonant part changes, for example, “KUMO” becomes “RUTO” and cannot be understood as words.
Also, based on the fact that auditory speech recognition (HSR: Human Speech Recognition) is more dependent on articulation such as envelope transitions than the carrier of the audio signal, it processes the “sounds of the envelope” of the original speech. When time reversal or time rotation is performed as a target unit, since the spectrum and the envelope shape are similar to the original speech, the speech information disturbance functions effectively.
本発明の実施の形態では、音声認識・理解のこのような側面に着目し、あるモードでは原音声の子音部分を変更・削除・置換する。子音部分の処理が主となるので、原音声と比較して音圧レベル(音量)の上昇は小さい。さらに原音声(以下、マスキーと称す)に処理音声(以下、マスカーと称す)を加えた全体の音量を更に低減するために、以下の併用/工夫が可能である。
(i)マスカーの生成において、母音部分を無音に置き換え、処理された子音部分だけを元のタイミングで出力する。
(ii)マスカーの情報隠蔽効果を高めるために、ANC(Active Noise Control)またはパラメータ固定のPNC(Passive Noise Control)技術を併用する。
In the embodiment of the present invention, paying attention to such aspects of speech recognition / understanding, the consonant part of the original speech is changed / deleted / replaced in a certain mode. Since the processing of the consonant part is the main, the increase in the sound pressure level (volume) is small compared to the original voice. Further, in order to further reduce the overall volume of the processed voice (hereinafter referred to as a masker) added to the original voice (hereinafter referred to as a maskee), the following combination / ingenuity is possible.
(I) In generating a masker, the vowel part is replaced with silence, and only the processed consonant part is output at the original timing.
(Ii) ANC (Active Noise Control) or parameter-fixed PNC (Passive Noise Control) technology is used in combination to enhance the masker's information hiding effect.
図2は、実施の形態に係る音声情報秘話システム100が設けられたブース2を模式的に示す斜視図である。図3は、図2の音声情報秘話システム100の機能および構成を模式的に示すブロック図である。
音声情報秘話システム100は、銀行の相談カウンターなど、簡易パーティションで区画されたブース2に設けられる。音声情報秘話システム100は、マイクロホンMicと、SDコントローラ部SDと、2つのパワーアンプPAと、2つのスピーカSPと、を備える。スピーカSPおよびSDコントローラ部SDは、ブース間を視覚的に隔てるITパーティション4に組み込まれてもよい。
FIG. 2 is a perspective view schematically showing the
The voice information
相談員と会話を行っている顧客6を発話者とする。この発話者のマスキーH'(t)はカウンター部分またはその近傍に設けられたマイクロホンMicによって集音される。マイクロホンMicにより集音されたマスキーH'(t)は音声信号に変換され、SDコントローラ部SDに送られる。この音声信号がSDコントローラ部SDによって変更、削除、置換、または時間的に反転/回転される。SDコントローラ部SDにおける処理を経た音声信号はパワーアンプPAを経てスピーカSPから左右の隣接ブース2’にマスカーH(t)として出力される。
A
隣接ブース2’にはマスキーH'(t)が空中を回り込んでくるので、顧客6が発話中の音声は隣接ブース2’内にいる受聴者8(顧客6とは異なる者)によって受聴されうる。しかしながら本実施の形態では、空中を回り込んで漏洩するマスキーH'(t)はマスカーH(t)と合成されて隣接ブース2’内の受聴者8に届く。したがってマスカーH(t)による擾乱により、受聴者8はマスキーH'(t)に含まれる会話の内容を理解することができない。
Since Muskie H '(t) goes around the air in the adjacent booth 2', the voice being spoken by the
スピーカSPは、SDコントローラ部SDやマイクロホンMicが設置されているブース2の隣の隣接ブース2’に向けてマスカーH(t)を出力する。ここで隣接ブース2’は、空中を回り込んで漏洩するマスキーH'(t)が受聴されている領域である。つまり、マスキーH'(t)とマスカーH(t)とが実質的に実時間で受聴者8に届くように、マスカーH(t)がスピーカSPから出力される。この実時間性を保証する主体はSDコントローラ部SDであってもスピーカSPであってもよいが、以下ではSDコントローラ部SDがマスキーH'(t)とマスカーH(t)との実時間性を考慮して音声信号を処理する場合について説明する。
The speaker SP outputs a masker H (t) toward the adjacent booth 2 'adjacent to the
図4は、図2のITパーティション4の構成を示す側面図である。ITパーティション4は、第1吸音層42と、遮音層44と、第2吸音層46と、をこの順に積層してなる積層構造を有する。第1吸音層42および第2吸音層46はそれぞれ厚さが20mmのグラスウールの層である。遮音層44は厚さが12mmの石膏ボードである。
FIG. 4 is a side view showing the configuration of the
図5は、図3のSDコントローラ部SDの機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウェア的には、コンピュータのCPU(central processing unit)をはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、本明細書に触れた当業者には理解されるところである。 FIG. 5 is a block diagram showing the function and configuration of the SD controller unit SD of FIG. Each block shown here can be realized in hardware by an element such as a CPU (central processing unit) or a mechanical device, and in software by a computer program or the like. Describes functional blocks realized by collaboration. Accordingly, it is understood by those skilled in the art who have touched this specification that these functional blocks can be realized in various forms by a combination of hardware and software.
SDコントローラ部SDは、記憶装置10と、A/D部20と、部分抽出部30と、部分変更部90と、出力部72と、ノイズ生成部80と、子音ライブラリ更新部82と、母音ライブラリ更新部84と、を含む。記憶装置10は、子音ライブラリ12と、母音ライブラリ14と、共通ライブラリ16と、を含む。部分抽出部30は、音素抽出部38と、略1山抽出部52と、ランダム抽出部60と、を有する。音素抽出部38は、音声判別部36と、子音抽出部32と、母音抽出部34と、を有する。略1山抽出部52は、自乗音圧取得部54と、ローパスフィルタ56と、第1決定部58と、を有する。ランダム抽出部60は、信号分割部62と、第2決定部64と、を有する。部分変更部90は、子音処理部40と、母音処理部50と、時間処理部66と、を有する。出力部72は、遅延調整部68と、D/A部70と、を有する。
The SD controller unit SD includes a
子音ライブラリ12は、子音部分の種類ごとにその波形データを記憶する。母音ライブラリ14は、母音部分の種類ごとにその波形データを記憶する。共通ライブラリ16は、子音部分の種類ごとに所定のサンプル波形データを記憶する。この共通ライブラリ16に記憶される子音部分のサンプル波形データは、男性、女性、子供、大人などに分類されている。
The
部分抽出部30は、A/D部20でA/D変換された音声信号から、その音声信号の波形に基づいて変更対象部分の信号を抽出する。部分変更部90は、部分抽出部30によって抽出された変更対象部分の信号を変更する。出力部72は、部分変更部90によって変更された変更対象部分の信号をD/A変換し、スピーカSPに出力する。
The
SDコントローラ部SDは少なくとも、子音のみ置換モード、子音母音置換モード、実時間モード、の3つの動作モードを有する。以下各動作モードごとに関連するブロックの機能を説明する。 The SD controller unit SD has at least three operation modes: a consonant only replacement mode, a consonant vowel replacement mode, and a real time mode. The function of the block related to each operation mode will be described below.
(1)子音のみ置換モード
マイクロホンMicにより集音されたマスキーH'(t)は音声信号に変換され、該音声信号はマイクアンプ(不図示)を経てA/D部20に入力される。A/D部20は、アナログ信号である音声信号をデジタル信号に変換する。音声判別部36は、A/D部20でデジタル化された音声信号の波形を過去の発話音声波形と比較することにより、その音声信号の子音部分と母音部分とを判別する。子音抽出部32は、その判別結果を使用して子音部分の信号を抽出する。
(1) Consonant-only replacement mode The masky H ′ (t) collected by the microphone Mic is converted into an audio signal, and the audio signal is input to the A /
子音ライブラリ更新部82は、子音抽出部32によって抽出された子音部分の信号の波形データをその種類ごとに子音ライブラリ12に蓄積する。ここで子音部分の分類はその継続時間・スペクトル・統計処理などから行われる。このように子音ライブラリ12に蓄積される子音部分の信号の波形データは、逐次処理によって会話開始から徐々に精度の高いものに置換されてゆく。
The consonant
ノイズ生成部80は、子音抽出部32で抽出された子音部分の信号を基に、それとスペクトルが重なるか違う音を生成する。
Based on the signal of the consonant part extracted by the
子音処理部40は、音声信号のうち子音抽出部32で抽出された子音部分の信号を処理する。子音処理部40は、子音抽出部32によって抽出された子音部分の信号を子音ライブラリ12から選出したほぼ同じ長さの別の子音部分の信号に置換する。子音処理部40は、置換の候補が複数ある場合は、ランダムに、かつ各組み合わせが略等確率となるように置換する。ここで子音部分の長さに長短があることの例としては、「s」に相当する子音部分の継続時間は比較的長く、「t」や「p」に相当する子音部分の継続時間は短いことがある。
The
なお、子音処理部40は、子音ライブラリ12を使用して子音部分の信号を置換する代わりに、子音抽出部32によって抽出された子音部分の信号をノイズ生成部80によって生成された子音ノイズと置換してもよい。この場合、マスキーH'(t)とマスカーH(t)との合成音声の無作為性がより増大する。また子音処理部40は、子音ライブラリ12を使用して子音部分の信号を置換する代わりに、子音抽出部32によって抽出された子音部分の信号を削除してもよい。
The
発話開始から数秒〜数十秒程度(以下、発話開始期間と称す)は、子音ライブラリ12に発話者本人の音声から採取した子音部分が十分に蓄積されていない可能性がある。そこでこの発話開始期間の間は、子音処理部40は共通ライブラリ16から対応する子音部分の信号を選出して子音抽出部32によって抽出された子音部分の信号と置換する。あるいはまた、発話開始期間の間、子音処理部40は子音抽出部32によって抽出された子音部分の信号をノイズ生成部80によって生成された子音ノイズと置換する。あるいはまた、発話開始期間の間、子音処理部40は子音抽出部32によって抽出された子音部分の信号を時間方向に反転する。
There is a possibility that the consonant portion collected from the voice of the utterer is not sufficiently accumulated in the
発話開始期間の間に用いられるこれらの子音部分変更アルゴリズムでは、発話者本人の子音ライブラリ12を使用する場合よりも自然さにおいて劣る。しかしながら発話開始後の短い時間だけなのでそれほど問題とはならない。
These consonant partial modification algorithms used during the utterance start period are less natural than using the
D/A部70は子音処理部40において処理された音声信号を、スピーカSPを駆動するためのアナログの音声信号に変換してパワーアンプPAに出力する。D/A部70は特に、子音処理部40によって置換された子音部分の信号と、その子音部分に対応する変更されていない母音部分の信号とを含む音声信号をアナログ信号に変換して出力する。
The D /
なお、マスキーH'(t)をマイクロホンMicで集音してからSDコントローラ部SDで処理しスピーカSPから対応するマスカーH(t)を出力するまでの時間、つまりSD処理時間TSDは、T+t以内とされる。ここでTはマスキーH'(t)が発せられた時点からそれが受聴者8に届くまでの時間であり、tはマスキーH'(t)とマスカーH(t)が受聴者8位置において顕著なエコーを発生させないような遅れ時間、もしくは受聴者8に届く合成音声が受聴者8にとって理解不能となる最大の遅れ時間である。tの具体的な値は実験により定められるが、代表的には数100ms程度である。
Note that the time from when the musky H ′ (t) is collected by the microphone Mic until it is processed by the SD controller unit SD and the corresponding masker H (t) is output from the speaker SP, that is, the SD processing time T SD is T + t. It is supposed to be within. Here, T is the time from when Muskie H '(t) is issued until it reaches the
マスキーH'(t)とマスカーH(t)とを受聴者8位置で合成して情報隠蔽を行うためには上述の通りSDコントローラ部SDでのSD処理を実時間もしくは準実時間で行わなければならない。この時間的な制約の存在、つまりSD処理時間TSDを短い時間であるT+t以下としなければならないこと、により、子音部分の信号の抽出及び置換・反転などの処理の精度を犠牲にしなければならない場合もある。しかしながら本実施の形態の目的は音声の明瞭度・了解度の低減にあり、想定/予定した処理自体の正確さが目的ではない。したがって本実施の形態では、マスカーH(t)の重畳によりマスキーH'(t)の意味内容が理解し難くなるという条件が満たされれば処理の精度は大きな問題とはならない。これは「意味内容が理解し難くなるという条件」は無数にあるからである。 In order to conceal information by synthesizing Masky H '(t) and Masker H (t) at the listener's 8 position, the SD processing in the SD controller unit SD must be performed in real time or near real time as described above. I must. Due to the presence of this time constraint, that is, the SD processing time T SD must be shorter than T + t, which is a short time, the accuracy of processing such as extraction, replacement and inversion of consonant signal must be sacrificed. In some cases. However, the purpose of this embodiment is to reduce the intelligibility and intelligibility of speech, and the accuracy of the assumed / scheduled processing itself is not the purpose. Therefore, in this embodiment, if the condition that it becomes difficult to understand the meaning content of the maskee H ′ (t) due to the superposition of the maskers H (t), the processing accuracy does not become a big problem. This is because there are an infinite number of “conditions that make it difficult to understand the semantic content”.
(2)母音置換モード
上述の子音部分の変更に加えて、母音部分も変更するモードである。母音抽出部34は、子音抽出部32で子音部分の信号が抽出された音声信号から母音部分の信号を抽出する。
(2) Vowel replacement mode In this mode, the vowel part is also changed in addition to the above-described change of the consonant part. The
母音ライブラリ更新部84は、母音抽出部34によって抽出された母音部分の信号の波形データをその種類ごとに母音ライブラリ14に蓄積する。ここで母音部分の分類はその継続時間・スペクトル・統計処理などから行われる。このように母音ライブラリ14に蓄積される母音部分の信号の波形データは、逐次処理によって会話開始から徐々に精度の高いものに置換されてゆく。
The vowel
ノイズ生成部80は、母音抽出部34で抽出された母音部分の信号を基に、それとスペクトルが類似する母音ノイズを生成する。
The
母音処理部50は、子音処理部40において子音部分の信号が処理された後の音声信号のうち、母音抽出部34で抽出された母音部分の信号を処理する。特に騒音レベルの上昇を極力抑える必要がある場合には、母音処理部50は母音抽出部34で抽出された母音部分を無音部分に置換する。この場合、D/A部70、スピーカSPを経て出力されるマスカーH(t)は子音部分と子音部分とに挟まれた無音部分を有する構成となる。つまりマスカーH(t)の子音部分は同期するマスキーH'(t)の母音部分と連結してひとつの音韻を構成することとなる。これにより全体の音量はマスカーH(t)で無音とした母音部分の分だけ低減され、室内の騒音レベルも低減される。
The
なお、母音処理部50は、母音部分を無音部分で置き換える代わりに、ライブラリベースの置換を行ってもよい。つまり、母音処理部50は、母音抽出部34によって抽出された母音部分の信号を母音ライブラリ14から選出した別の母音部分の信号に置換してもよい。母音処理部50は、置換の候補が複数ある場合は、ランダムに、かつ各組み合わせが略等確率となるように置換する。発話開始期間における母音部分変更アルゴリズムについては子音部分のそれと同様である。
The
または、母音処理部50は、母音部分を無音部分で置き換える代わりに、母音処理部50によって抽出された母音部分の信号をノイズ生成部80によって生成された母音ノイズと置換してもよい。この場合、やはりマスキーH'(t)とマスカーH(t)との合成音声の無作為性がより増大する。
Alternatively, the
また、子音母音の処理の順番、つまり子音処理部40における処理と母音処理部50における処理の順番を入れ替えてもよい。
Further, the order of processing of consonant vowels, that is, the order of processing in the
図6は、子音ライブラリ12を示すデータ構造図である。子音ライブラリ12は、音素としての子音112とその子音の波形データ114とを対応付けて記憶する。母音ライブラリ14および共通ライブラリ16もまた子音ライブラリ12と同様のデータ構造を有する。
FIG. 6 is a data structure diagram showing the
図7は、マスキーH'(t)の一例を表す音声信号の波形を示す波形図である。図7の波形は「あの、彼とはそうと(う)長いんだよね、実は(ANO KARETOWA SO-TONAGAINDAYONE ZITSUWA)」という原音声をマイクロホンMicで音声信号に変換したものである。図7の縦軸は信号強度を任意の単位で表し、横軸は時間を表す。図7において縦の破線で区画された領域ひとつひとつが音素に対応し、対応する音素がローマ字で明示されている。また、「-」は音声休止部を表す。包絡線102は実線で示される。ここで包絡線は音声サンプルを自乗音圧領域で数10msecの時定数をかけ平方根をとったものである。
FIG. 7 is a waveform diagram showing a waveform of an audio signal representing an example of the maskee H ′ (t). The waveform in FIG. 7 is obtained by converting the original voice “ANO KARETOWA SO-TONAGAINDAYONE ZITSUWA” into a voice signal with the microphone Mic. The vertical axis in FIG. 7 represents signal intensity in arbitrary units, and the horizontal axis represents time. In FIG. 7, each region divided by vertical broken lines corresponds to a phoneme, and the corresponding phoneme is clearly shown in Roman letters. “-” Represents a voice pause unit.
図7における母音、子音、無音の別を表1に示す。音声開始前のある時刻を時刻の原点(t=0)として定める。 Table 1 shows vowels, consonants, and silences in FIG. A certain time before the start of voice is defined as the time origin (t = 0).
図8は、図7の音声信号をSDコントローラ部SDにおいて子音のみ置換モードで処理することで生成される音声信号の波形を示す波形図である。区画104で示される子音部が置換された子音部である。これらの置換に際し切り出し時間長や再挿入時レベル(dB)を調整している。
置換後の包絡線106は実線で示される。図7の包絡線102と図8の包絡線106とを比較するとそれ程変化していないことが分かる。つまり音声のイントネーションや抑揚にそれ程変化はない。しかしながら図8の音声信号がスピーカSPで音声に変換され、マスカーH(t)として出力されると、受聴者8サイトではマスキーH'(t)とマスカーH(t)とが合成されて聞こえ、その意味内容は理解されにくくなる。つまり「わからない」となることが多い(他の音に聞こえる場合もある)。
FIG. 8 is a waveform diagram showing a waveform of an audio signal generated by processing the audio signal of FIG. 7 in the consonant only replacement mode in the SD controller unit SD. This is a consonant part in which the consonant part indicated by the
The
図5に戻る。
(3)実時間モード
マイクロホンMicにより集音されたマスキーH'(t)は音声信号に変換され、該音声信号はマイクアンプ(不図示)を経てA/D部20に入力される。A/D部20は、アナログ信号である音声信号をデジタルデータに変換する。A/D部20でデジタル化された音声信号は、例えば音圧の大きさに応じた電圧値が時刻と対応付けられたデジタルデータである。
Returning to FIG.
(3) Real-time mode Musky H ′ (t) collected by the microphone Mic is converted into an audio signal, and the audio signal is input to the A /
部分抽出部30は、A/D部20でデジタル化された音声信号から変更対象部分の信号を抽出する。部分抽出部30は、変更対象部分の信号として子音部分の信号を抽出してもよい。あるいはまた、部分抽出部30は、変更対象部分の信号として母音部分の信号を抽出してもよい。子音部分および母音部分の抽出については上述の通りである。
The
あるいはまた、部分抽出部30は、変更対象部分の信号として音声信号の包絡線の形状に基づいて決定されたひとまとまりの信号を抽出してもよい。あるいはまた、部分抽出部30は、音声信号をランダムな長さを有する期間で分割し、分割後の1区間に対応する信号を変更対象部分の信号として抽出してもよい。
Alternatively, the
部分抽出部30が変更対象部分の信号として音声信号の包絡線の形状に基づいて決定されたひとまとまりの信号を抽出する場合を説明する。略1山抽出部52は、音声信号の包絡線を示すデータを取得する。このデータは、例えば包絡線の大きさに応じた電圧値が時刻と対応付けられたデジタルデータである。以下、包絡線を示すデータを単に包絡線と称す。
A case will be described in which the
自乗音圧取得部54は、A/D部20でデジタル化された音声信号の自乗音圧波形を取得する。自乗音圧取得部54は、音声信号を自乗し、必要に応じて所定の係数を乗ずることにより自乗音圧波形を得る。
The squared sound
ローパスフィルタ56は、自乗音圧取得部54によって取得された自乗音圧波形を数msecから数100msecの時定数で平均化する。すなわちローパスフィルタ56は自乗音圧波形に対してローパスフィルタ処理をする。これにより、自乗音圧波形から時定数程度よりも速い変化が取り除かれ、滑らかな波形が得られる。本実施の形態では、この滑らかな波形が音声信号の包絡線である。なお、他の方法で音声信号の包絡線を求めてもよいことは、本明細書に触れた当業者には理解される。また、本実施の形態において包絡線は、広義には音声信号の平均エネルギ(振幅)の変化を示すデータである。
ローパスフィルタ56は、必要であればローパスフィルタ処理されたデータの平方根をとる。
The
The
第1決定部58は、ローパスフィルタ56によって得られた音声信号の包絡線のうち、数dB〜数10dB、例えば5dB以上連続して上昇する上昇部分を検出する。次に第1決定部58は、上昇部分の後で数dB〜数10dB、例えば5dB以上連続して下降する下降部分を検出する。第1決定部58は、上昇部分とそれに対応する下降部分との間の音声信号を変更対象部分の信号として決定する。このようにして決定される変更対象部分の信号の包絡線は略1山状となることが多い。
The
図9は、第1決定部58における変更対象部分の信号の決定基準を説明するための説明図である。図9(a)は、第1決定部58において上昇部分と下降部分の検出に基づいて変更対象部分の信号が決定される場合を説明するための説明図である。図9(a)は、例示としての音声信号の波形211とその包絡線208とを示す。第1決定部58は、包絡線208の変化率に基づき上昇部分202を検出する。次に第1決定部58は上昇部分202の後の下降部分204を検出する。第1決定部58は、上昇部分202と下降部分204とで挟まれる区間206(ピーク203より前の時刻t1とピーク203より後の時刻t2とで挟まれる区間)の音声信号を変更対象部分の信号として決定する。
FIG. 9 is an explanatory diagram for explaining a determination criterion for the signal of the change target portion in the
なお、第1決定部58は、他の方法で変更対象部分の信号を決定してもよい。例えば、第1決定部58は、包絡線が膨らんでいる部分を検出し、その部分に対応する音声信号を変更対象部分の信号として決定してもよい。あるいはまた、第1決定部58は、包絡線のピークを検出し、その前後に所定の長さを有する区間の音声信号を変更対象部分の信号として決定してもよい。あるいはまた、第1決定部58は、包絡線が所定のレベルを越えている連続的な区間の音声信号を変更対象部分の信号として決定してもよい。
Note that the
図9(b)は、第1決定部58においてピークの検出に基づいて変更対象部分の信号が決定される場合を説明するための説明図である。図9(b)は、例示としての音声信号の波形212とその包絡線214とを示す。第1決定部58は、包絡線214のピーク216を検出する。第1決定部58は、ピーク216の前後に所定の長さを有する区間218の音声信号を変更対象部分の信号として決定する。
FIG. 9B is an explanatory diagram for explaining a case where the signal of the change target portion is determined based on the detection of the peak in the
図9(c)は、第1決定部58において包絡線のレベルに基づいて変更対象部分の信号が決定される場合を説明するための説明図である。図9(c)は、例示としての音声信号の波形220とその包絡線222とを示す。第1決定部58は、包絡線222が所定のレベル224を越えている連続的な区間226を検出し、その区間226の音声信号を変更対象部分の信号として決定する。この場合、所定のレベルの取り方によっては、変更対象部分の信号が2以上のピークを含む場合がある。
FIG. 9C is an explanatory diagram for explaining a case where the signal of the change target portion is determined based on the envelope level in the
以上のように変更対象部分の信号の決定手法は種々考えられる。このように選択肢が多いことは、SDによる会話内容の隠蔽をより効果的とするための大きな自由度を提供するという意味で好適である。 As described above, various methods for determining the signal of the change target portion are conceivable. Such a large number of options is preferable in the sense that it provides a great degree of freedom for making the concealment of conversation contents by SD more effective.
また、これら種々の決定手法に通じて言えることは、音声信号の波形に基づいて、特にその統計的な性質に基づいて信号のひとまとまりが判別され、そのように判別されたひとまとまりの信号が変更対象部分の信号として決定されていることである。すなわち、入来する音声信号に応じて適応的に変更対象部分が決定される。この場合、本発明者の当業者としての経験および予備的な実験によると、例えば予め定められた一定の間隔で音声信号を切り出す場合と比べてより会話内容擾乱効果が高いことが見出された。特に、本発明者によって行われた実験によると、包絡線の略1山を変更単位として抽出する場合は、例えば一定周期で切り出す場合や子音や母音を変更単位とする場合と比べて擾乱効果が高いことが見出された。 In addition, what can be said through these various determination methods is that a group of signals is determined based on the waveform of an audio signal, particularly based on its statistical properties, and the group of signals thus determined is That is, it is determined as a signal of the part to be changed. That is, the change target portion is adaptively determined according to the incoming audio signal. In this case, according to the experience of the present inventor as a person skilled in the art and preliminary experiments, it has been found that the conversation content disturbance effect is higher than, for example, the case where audio signals are cut out at predetermined intervals. . In particular, according to an experiment conducted by the present inventor, when approximately one peak of an envelope is extracted as a change unit, the disturbance effect is more effective than, for example, cutting out at a constant period or using a consonant or vowel as a change unit. It was found to be expensive.
図5に戻る。
第1決定部58は、音声信号のうち変更対象部分の信号として決定されなかった部分を遅延調整部68に出力する。
Returning to FIG.
The
部分抽出部30が音声信号をランダムな長さを有する期間で分割し、分割後の1区間に対応する信号を変更対象部分の信号として抽出する場合について説明する。
信号分割部62は、A/D部20でデジタル化された音声信号をランダムな長さを有する期間で分割する。期間の長さは数10msec〜数100msecの間で変動する。または期間の長さは一定周期に対して±数10%〜数100%の範囲で変動する。例えば、期間の長さは、…、11msec、10msec,12msec、…、と変化する。
A case will be described in which the
The
第2決定部64は、音声信号のうち信号分割部62で分割された期間のひとつに対応する信号を変更対象部分の信号として決定する。第2決定部64は、分割された全ての期間を変更対象部分として選択してもよいし、例えば1つおきに変更対象部分として選択してもよい。後者の場合、第2決定部64は変更対象部分として選択されなかった期間に対応する部分の音声信号を遅延調整部68に出力する。
この場合、期間の長さにランダム性が加味されているので、マスカーH(t)の自然性が向上する。
The
In this case, since the randomness is added to the length of the period, the naturalness of the masker H (t) is improved.
時間処理部66は、部分抽出部30によって抽出された変更対象部分の信号を、その時間軸に沿った波形に基づいて処理する。時間処理部66は、変更対象部分の信号に対して時間反転または時間回転を施す。
The
時間反転について、時間処理部66は、抽出された変更対象部分の信号を時間について反転する。すなわち、時間処理部66は、変更対象部分の信号から時間を逆行させた信号を生成する。より具体的に説明すると、時間処理部66は、変更対象部分の信号の時刻ti(0≦i≦N、t0<t1<…<tN、Nは自然数、t0≡0)における電圧値f(ti)に対して関数h(f(ti))=f(tN−ti)を作用させる。その結果、時間処理部66における時間反転処理を経た変更対象部分の信号の波形は、元の波形をその中心を通り時間軸と垂直な線に対して折り返した形状を有する。
Regarding the time inversion, the
時間回転について、時間処理部66は、抽出された変更対象部分の信号の時間軸に沿った波形を回転させる。より具体的に説明すると、時間処理部66は、上述の通り変更対象部分の信号に対して時間反転を施す。加えて時間処理部66は、時間反転が施された変更対象部分の信号の符号を反転する。その結果、時間処理部66における時間回転処理を経た変更対象部分の信号の波形は、元の波形をその時間軸上の中心に対して180度回転した形状を有する。
Regarding the time rotation, the
出力部72は、時間処理部66からは時間反転または時間回転処理された変更対象部分の信号を、部分抽出部30からは変更対象部分でない信号を、取得する。出力部72は、それらをアナログ信号に変換し、パワーアンプPAを介してスピーカSPに出力する。
The
遅延調整部68は、時間反転または時間回転処理された変更対象部分の信号と変更対象部分でない信号とをつなぎ合わせて出力すべき出力音声信号を生成する。遅延調整部68は、出力音声信号が出力部72から出力されるタイミングを、マスキーH'(t)の伝搬にかかる時間に応じて調整する。特に遅延調整部68は、出力音声信号に対して所定の遅延を与える。この遅延は、受聴者8位置におけるマスキーH'(t)に対するマスカーH(t)の遅れがマスキーH'(t)とマスカーH(t)とが実質的に実時間と言える程度の範囲内に収まるように設定される。
The
マスキーH'(t)とマスカーH(t)とが実質的に実時間であることは、例えばマスキーH'(t)とマスカーH(t)とが隣接ブース2’内で少なくとも部分的に重畳することである。あるいはまた、出力部72から出力された変更対象部分の信号がスピーカSPによって音声に変換され、その変換された音声が、マスキーH'(t)が隣接ブース2’内で受聴されている間に隣接ブース2’に出力されることである。あるいはまた、出力部72から出力された変更対象部分の信号がスピーカSPによって音声に変換され、その変換された音声が、当該変更対象部分の信号に対応するマスキーH'(t)の部分が隣接ブース2’内で受聴されている間に隣接ブース2’に出力されることである。これは言い換えると、変更対象部分の信号に対応するマスキーH'(t)の部分と、当該変更対象部分の信号に対応するマスカーH(t)の部分とが隣接ブース2’内で少なくとも部分的に重畳することである。
The fact that the maskee H '(t) and the masker H (t) are substantially in real time means that, for example, the maskee H' (t) and the masker H (t) are at least partially overlapped in the adjacent booth 2 '. It is to be. Alternatively, the signal of the change target portion output from the
音声情報秘話システム100を導入する際、マイクロホンMicおよびスピーカSPの位置は決まり、想定される顧客6の位置および想定される受聴者8の位置もある程度は決まる。また、SDコントローラ部SDにおける処理時間もある程度見積もることができる。したがって、音声情報秘話システム100の導入時に、顧客6から受聴者8へのマスキーH'(t)の伝搬時間およびマスカーH(t)の伝搬時間をある程度見積もることができる。遅延調整部68における遅延は、受聴者8位置におけるマスキーH'(t)に対するマスカーH(t)の遅れの所望値から逆算して設定される。
When the voice information
マスキーH'(t)に対するマスカーH(t)の遅れが大きいと、受聴者8位置においてエコーや残響が生じる虞がある。したがって、遅延調整部68は、受聴者8位置におけるマスキーH'(t)に対するマスカーH(t)の遅れがそのような違和感を生じさせない程度の値となるような遅延を出力音声信号に対して与える。この遅延は実験により定められるが、代表的には数100msec以下である。
If the masker H (t) has a large delay with respect to the maskee H ′ (t), echoes or reverberations may occur at the
また、マイクロホンMic、スピーカSP、顧客6、受聴者8の位置関係によっては、遅延調整部68で遅延を付与しないとした場合にマスカーH(t)がマスキーH'(t)よりもかなり遅く受聴者8位置に到達することもある。この場合、マスキーH'(t)とマスカーH(t)とを受聴者8位置で実質的に実時間で合成して情報隠蔽を行うためには、SDコントローラ部SDでのSD処理時間を短縮しなければならない。この時間的な制約の存在、つまりSD処理時間を短縮しなければならないことにより、時間処理の精度を犠牲にしなければならない場合もある。しかしながら本実施の形態の目的は音声の明瞭度・了解度の低減にあり、想定/予定した処理自体の正確さが目的ではない。したがって本実施の形態では、マスカーH(t)の重畳によりマスキーH'(t)の意味内容が理解し難くなるという条件が満たされれば処理の精度は大きな問題とはならない。これは「意味内容が理解し難くなるという条件」は無数にあるからである。
Further, depending on the positional relationship between the microphone Mic, the speaker SP, the
D/A部70は、遅延調整部68によって遅延が付与された出力音声信号を、スピーカSPを駆動するためのアナログの音声信号に変換してパワーアンプPAに出力する。
The D /
図10は、受聴者8位置におけるマスキーH'(t)および時間回転処理されたマスカーH(t)を表す音声信号の波形を示す波形図である。図10(a)は、マスキーH'(t)を表す音声信号の波形を示す波形図である。図10(a)の波形は原音声をマイクロホンMicで音声信号に変換したものである。図10(a)の縦軸は信号強度を任意の単位で表し、横軸は時間を表す。図10(b)は、図10(a)の音声信号に対して、SDコントローラ部SDにおいて略1山単位で時間回転を施して生成される音声信号の波形を示す波形図である。例えば、SDコントローラ部SDは、図10(a)の円150で示される略1山の音声信号を変更対象部分の信号として抽出し、その略1山の音声信号に時間回転を施して図10(b)の円152で示される音声信号を生成、出力する。
FIG. 10 is a waveform diagram showing the waveform of an audio signal representing the maskee H ′ (t) and the time-rotated masker H (t) at the
図10(a)の包絡線と図10(b)の包絡線とを比較するとそれ程変化していないことが分かる。つまり音声のイントネーションや抑揚にそれ程変化はない。しかしながら図10(b)の音声信号がスピーカSPで音声に変換され、マスカーH(t)として出力されると、受聴者8サイトではマスキーH'(t)とマスカーH(t)とが合成されて聞こえ、その意味内容は理解されにくくなる。つまり「わからない」となることが多い。
When the envelope of FIG. 10A is compared with the envelope of FIG. 10B, it can be seen that there is not much change. In other words, there is not much change in voice intonation and intonation. However, when the audio signal of FIG. 10B is converted into audio by the speaker SP and output as a masker H (t), the masker H '(t) and the masker H (t) are synthesized at the
図11は、音声情報秘話システム100における一連の処理を示すフローチャートである。マイクロホンMicは、マスキーH'(t)を収集し、音声信号を生成する(ステップ302)。A/D部20は、マスキーH'(t)を表す音声信号をマイクロホンMicから取得する(ステップ304)。部分抽出部30は、A/D部20によって取得されA/D変換された音声信号から、その音声信号の波形に基づいて変更対象部分の信号を抽出する(ステップ306)。部分変更部90は、部分抽出部30によって抽出された変更対象部分の信号を変更する(ステップ308)。出力部72は、部分変更部90によって変更された変更対象部分の信号をスピーカSPに出力する(ステップ310)。スピーカSPは、受け取った信号を音声に変換してマスカーH(t)とし、そのマスカーH(t)をマスキーH'(t)が受聴されている隣接ブース2’に出力する(ステップ312)。
FIG. 11 is a flowchart showing a series of processes in the speech information
以上の構成による音声情報秘話システム100の動作を説明する。銀行のブース2に顧客6が座り、銀行の相談員と例えばローンについて相談する場合を考える。この際、ブース2の隣の隣接ブース2’には受聴者8がいて口座の開設を申請しているとする。顧客6は自己の事業の資金繰りが悪化したなどローンを申請する事情を説明している。無論このような話は受聴者8に漏れ聞こえないほうがよく、特に本実施の形態に係る音声情報秘話システム100では顧客6の発話音声のうち子音部分の信号が変換されたものや時間回転が施されたものが受聴者8に届くので、受聴者8は顧客6の発話内容を理解できない。加えて顧客6の発話がない場合はスピーカSPから隣接ブース2’への出力は実質的にないため、隣接ブース2’内の騒音レベルを不必要に上昇させることもない。
The operation of the speech information
上述の実施の形態において、記憶装置10の例は、ハードディスクやメモリである。また、本明細書の記載に基づき、各ブロックを、図示しないCPUや、インストールされたアプリケーションプログラムのモジュールや、システムプログラムのモジュールや、ハードディスクから読み出したデータの内容を一時的に記憶するメモリなどにより実現できることは本明細書に触れた当業者には理解されるところである。
In the above-described embodiment, examples of the
本実施の形態に係る音声情報秘話システム100によると、以下の作用効果を得ることができる。
According to the speech information
(1)本実施の形態に係る音声情報秘話システム100によると、会話の存在そのものの隠蔽や抹消ではなく、その内容、つまり会話音声に含まれる情報が隠蔽される。この点に関し本発明者は以下を認識した。
オープンプランのオフィスや銀行や証券会社のロビーカウンター、特に簡易パーティションにより仕切られた接客カウンターなどでは、会話している人以外の人にその会話の中身を理解不能とすれば、会話内容の隠蔽という点では十分にその目的が果たされる。つまり会話の内容さえ漏れなければ音声そのものは聞こえてもよい。むしろ発話者の存在が視認できる場合などは、音声のスペクトルや包絡線(音質やイントネーション、抑揚)が保存されたほうが自然である。本実施の形態に係る音声情報秘話システム100は、以上の視点・ニーズに対応し、より自然な形で会話内容を隠蔽する。
(1) According to the speech information
In open-plan offices, bank counters, and securities company lobby counters, especially at customer service counters that are partitioned by simple partitions, concealing the content of a conversation is possible if the contents of the conversation cannot be understood by anyone other than the person who is speaking. The point serves its purpose well. In other words, the voice itself may be heard as long as the content of the conversation is not leaked. Rather, when the presence of a speaker can be visually recognized, it is more natural to preserve the speech spectrum and envelope (sound quality, intonation, and intonation). The voice information
(2)部分抽出部30において子音部分が抽出される場合、マスカーH(t)は発話者本人のマスキーH'(t)を基にその子音部分に着目して作成され、原音声と並行してスピーカから出力される。したがって、特に子音のみ置換モードではマスキーH'(t)のスペクトルや包絡線はマスカーH(t)となっても保存されうる。その結果、マスカーH(t)のスペクトルやイントネーションはマスキーH'(t)のそれとほぼ同じとなるので、違和感はそれ程無く自然に聞き手に受け取られる。
(2) When the consonant part is extracted by the
(3)部分抽出部30において子音部分が抽出される場合、マスカーH(t)はマスキーH'(t)に対し子音部分のみを置換して、あるいは子音部分を置換したうえで母音部分を無音部分に置き換えたり処理したりして生成される。したがって、マスカーH(t)の音量(音圧レベル)ひいては室内騒音レベルの上昇を極力抑えることができる。
(3) When the consonant part is extracted by the
(4)時間軸上でマスキーH'(t)がないとき、つまり会話がないときはマスカーH(t)も出力されない。つまり両者は時間的に実質的に重畳する。したがって、音声発生のない「無音時」におけるマスカーH(t)による室内騒音レベルの上昇は抑えられる。 (4) No masker H (t) is output when there is no maskee H '(t) on the time axis, that is, when there is no conversation. That is, both overlap substantially in time. Therefore, an increase in the room noise level due to the masker H (t) during “no sound” when no sound is generated can be suppressed.
(5)従来の技術を使用した場合に発生しうるマスカー断続やレベル変動(会話停止時に断〜レベル低減)による違和感や、会話とは関係のない別の音(騒音・音楽)を放射することによる発話者・会話者・その他の在室者に対する違和感が抑えられる。 (5) Dissipating a feeling of discomfort due to intermittent maskers or level fluctuations (disrupted when the conversation is stopped to reduced level) that may occur when using conventional technology, or other sounds (noise / music) that are not related to conversation This reduces the sense of discomfort for speakers, conversers, and other people in the room.
(6)従来の技術における物理的な遮音や個室化に対しては、空間的な遮断や移動を必要としないので、開放感やコミュニケーションが妨げられにくくなる。 (6) With respect to the physical sound insulation and private room formation in the prior art, no spatial blockage or movement is required, so that a sense of openness and communication are less likely to be hindered.
(7)SDコントローラ部SDおよびスピーカSPはITパーティション4に組み込まれるので、システムの設置や取付を大幅に簡略化できる。場合によってはマイクロホンMicをITパーティション4に組み込んでもよい。この場合、さらに簡略化される。
(7) Since the SD controller unit SD and the speaker SP are incorporated in the
(8)ITパーティション4はそれ自体が吸音処理されている。したがって、ブース内での会話音声の明瞭度を上げつつ隣接ブースへの音漏れを低減できる。
(8) The
(9)マスカーH(t)は置換・削除・反転・回転などの処理によりマスキーH'(t)(原音声)とは電気信号的な相関がそれ程高くない信号となる。したがって、音声情報秘話システム100の動作時においてハウリングなどのフィードバックに起因する異常が生じにくい。
(9) The masker H (t) becomes a signal whose electrical signal correlation is not so high as that of the maskee H ′ (t) (original voice) by processing such as substitution, deletion, inversion, and rotation. Therefore, abnormalities due to feedback such as howling are less likely to occur during the operation of the speech information
(10)本実施の形態に係るSDコントローラ部SDの実時間モードでは、変更対象部分の信号に時間反転または時間回転が施される。時間反転が施される場合、信号の包絡線を保存しつつ情報攪乱に効果的なマスカーH(t)を生成できる。ただし、時間反転の場合はマスキーH'(t)とマスカーH(t)とにそれほど聴感的な差が生じない場合もある。これに対して時間回転が施される場合は、マスキーH'(t)とマスカーH(t)との聴覚的な印象が微妙に変わってくることが本発明者による実験により分かっている。 (10) In the real time mode of the SD controller unit SD according to the present embodiment, time reversal or time rotation is performed on the signal of the change target portion. When time reversal is performed, it is possible to generate a masker H (t) effective for information disturbance while preserving the signal envelope. However, in the case of time reversal, there may be a case where a audible difference does not occur between the maskee H ′ (t) and the masker H (t). On the other hand, when time rotation is performed, it has been found by experiments by the present inventor that the auditory impression of the maskee H ′ (t) and the masker H (t) changes slightly.
情報隠蔽/聴覚翻弄のためには、マスキーH'(t)とマスカーH(t)とが聴覚的に類似すぎるのは問題であるが、異なりすぎるのも問題である。聴覚には、性質の異なるもの同士は区別して認識する、という性質があるからである。したがって、上記時間回転の場合は、聴覚的に近すぎずまた遠すぎない、情報隠蔽に丁度良いマスカーH(t)が提供されうる。 For information concealment / hearing, it is a problem that the maskee H '(t) and the masker H (t) are too auditoryly similar, but it is also a problem that they are too different. This is because the auditory sense has a property of distinguishing and recognizing different properties. Therefore, in the case of the time rotation described above, a masker H (t) that is not too close to the auditory sense and not too far away and is just good for information hiding can be provided.
(11)部分抽出部30において、略1山状の信号が変更対象部分の信号として抽出される場合、マスキーH'(t)の信号レベルが小さい部分で切り取りや貼り付けが行われるので、時間反転・回転処理によるクリック雑音などが低減される。すなわち、マスキーH'(t)が時間的に連続であればマスカーH(t)もほぼ連続となるので、一定時間で区画する場合には生じうる遮断部分におけるクリック雑音や、その低減を目的とした窓掛け処理による包絡線形状の崩壊(イントネーションの崩壊)も生じにくい。
(11) In the
(12)部分抽出部30において、略1山状の信号が変更対象部分の信号として抽出され、そのように抽出された信号に時間回転処理が施される場合、マスカーのスペクトルや包絡線の形状はほぼ保存され、マスキーのそれらと類似のものとなる。したがって、室内の騒音レベルの上昇やクリック雑音を最低限に抑えたまま効果的に音場情報撹乱(音声内容の隠蔽)を機能させることができる。
(12) When the
以上、実施の形態に係る音声情報秘話システム100およびそれに含まれるSDコントローラ部SDの構成と動作について説明した。この実施の形態は例示であり、その各構成要素や各処理の組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
Heretofore, the configuration and operation of the audio information
実施の形態では、隣接ブースの片側からマスカーH(t)が出力される場合について説明したが、これに限られない。例えば、信号加算によりマスカーH(t)が隣接ブースの左右両側から出力されてもよい。図12は、第1変形例に係る音声情報秘話システムの機能および構成を模式的に示すブロック図である。第1変形例に係る音声情報秘話システムは、マイクロホンMicと、SDコントローラ部SDと、4つのスピーカSPa〜SPd(SPdは不図示)と、4つのパワーアンプPAa〜PAd(PAdは不図示)と、4つの加算器210a〜210d(210dは不図示)と、を備える。
In the embodiment, the case where the masker H (t) is output from one side of the adjacent booth has been described, but the present invention is not limited to this. For example, the masker H (t) may be output from the left and right sides of the adjacent booth by signal addition. FIG. 12 is a block diagram schematically showing the function and configuration of the speech information secret system according to the first modification. The audio information secret system according to the first modification includes a microphone Mic, an SD controller unit SD, four speakers SPa to SPd (SPd is not shown), and four power amplifiers PAa to PAd (PAd is not shown). Four
SDコントローラ部SDにおける処理を経た音声信号は、ブース2の左のスピーカSPaに対応する加算器210aと、ブース2の右のスピーカSPbに対応する加算器210bと、ブース2の左隣の隣接ブース2’の左のスピーカSPcに対応する加算器210cと、ブース2の右隣の隣接ブースの右のスピーカSPd(不図示)に対応する加算器210d(不図示)と、に入力される。それぞれの加算器210a〜210dに入力された音声信号は対応するパワーアンプPAa〜PAdを経てスピーカSPa〜SPdから出力される。加算器はそれが接続されたスピーカが音声を出力するブースの両隣のブースから、SDコントローラ部SDにおける処理を経た音声信号を取得して加算する。
本変形例によると、マスカーH(t)が隣接ブース2’の左右両側から出力されるので、ブース2における会話内容が受聴者8により伝わりにくくなる。
The audio signal that has undergone the processing in the SD controller unit SD is the
According to this modification, since the masker H (t) is output from both the left and right sides of the
また、マスキーH'(t)のレベルを低減するためにPNC(Passive Noise Controller)を併用してもよい。PNCは公知のANC(Active Noise Control)を調整時に適応処理させ、運用時には設定されたパラメータを固定して使用することを意図するものである。
図13は、第2変形例に係る音声情報秘話システムの機能および構成を模式的に示すブロック図である。本変形例では、図12のSDコントローラ部SDを図13の破線で囲まれた部分で置き換える。この部分ではSDコントローラ部SDとPNC部PNCとが並列に設けられ、マイクロホンMicからの音声信号がSDコントローラ部SDとPNC部PNCとに入力される。SDコントローラ部SDの出力側にはスイッチSW1が設けられ、スイッチSW1によってSDコントローラ部SDの動作のオンオフが制御される。そのスイッチSW1の出力とPNC部PNCの出力とは加算器406で加算され、パワーアンプPAを介してスピーカSPから音声として出力される。
Further, a PNC (Passive Noise Controller) may be used in combination to reduce the level of the maskee H ′ (t). The PNC intends to use a known ANC (Active Noise Control) adaptively at the time of adjustment, and to fix and use the set parameters at the time of operation.
FIG. 13 is a block diagram schematically showing the function and configuration of the audio information secret system according to the second modification. In this modification, the SD controller unit SD in FIG. 12 is replaced with a part surrounded by a broken line in FIG. In this part, the SD controller unit SD and the PNC unit PNC are provided in parallel, and an audio signal from the microphone Mic is input to the SD controller unit SD and the PNC unit PNC. A switch SW1 is provided on the output side of the SD controller unit SD, and the operation of the SD controller unit SD is controlled by the switch SW1. The output of the switch SW1 and the output of the PNC unit PNC are added by an
本変形例では、音源402とアンプ404を介して接続されたヘッドトルソシミュレータHATS(HATS: Head and Torso Simulator)などを発話者位置Pに置いて、PNC部PNCの同定を行う。スイッチSW1を開いてSDコントローラ部SDの動作を切り、HATSから適切な音声信号を放射して隣接ブース2’の受聴者位置Qに置いたマイクロホンMic’の出力が最小になるようにPNC部PNCを適応動作させてシステム同定を行う。
In this modification, the head torso simulator HATS (HATS: Head and Torso Simulator) connected to the
このときマイクロホンMicおよびスピーカSPを含むインパルス応答は-h(x)となり、絶対値がPNC発話者−受聴者間のそれh(x)にほぼ等しくなる。その後スイッチSW1を閉じ、同定されたパラメータを固定した状態でPNC部を稼動させる。すると発話者と受聴者の位置P、QおよびマイクロホンMicとスピーカSPの位置はほぼ固定されているので、マスキーH'(t)のレベルは効果的に低減され、マスカーH(t)が優勢となる。その結果、情報隠蔽(Information Masking)の効果が強められる。必要に応じてマスカーH(t)のレベルを下げると、マスキーH'(t)を含むシステム全体のレベル、つまり室内の騒音レベルをさらに低減することもできる。
なお、上述のPNC機能はSDコントローラ部SDが組み込まれているコンピュータに組み込まれてもよい。
At this time, the impulse response including the microphone Mic and the speaker SP is −h (x), and the absolute value is substantially equal to that h (x) between the PNC speaker and the listener. Thereafter, the switch SW1 is closed, and the PNC unit is operated with the identified parameters fixed. Then, since the positions P and Q of the speaker and the listener and the positions of the microphone Mic and the speaker SP are substantially fixed, the level of the maskee H ′ (t) is effectively reduced, and the masker H (t) is dominant. Become. As a result, the effect of information masking is enhanced. If the level of the masker H (t) is lowered as necessary, the level of the entire system including the maskee H ′ (t), that is, the noise level in the room can be further reduced.
Note that the PNC function described above may be incorporated in a computer in which the SD controller unit SD is incorporated.
ANC/PNCは既存の技術であるが、広い音場を3次元にわたりくまなく制御するのには向いていない。一方でカウンターのパーティションで囲まれた狭い空間のほぼ定まった位置に受聴者の頭が存在するようなケースでは3次元でも有効な音響低減手段となる。 Although ANC / PNC is an existing technology, it is not suitable for controlling a wide sound field all over three dimensions. On the other hand, in the case where the listener's head is present at a substantially fixed position in a narrow space surrounded by the partition of the counter, the sound reduction means is effective even in three dimensions.
実施の形態における子音部分などの変更対象部分の置換または削除にあたり、ハニング窓などの時間窓やゼロクロス検出を併用して、切り取り時に発生しうるクリック音などを除去してもよい。この場合、受聴者8あるいは在室者に与えうる違和感がさらに低減される。
In replacement or deletion of a change target portion such as a consonant portion in the embodiment, a time window such as a Hanning window or zero cross detection may be used together to remove a click sound that may occur at the time of clipping. In this case, the uncomfortable feeling that can be given to the
以上、実施の形態にもとづき本発明を説明したが、実施の形態は、本発明の原理、応用を示しているにすぎないことはいうまでもなく、実施の形態には、請求の範囲に規定された本発明の思想を逸脱しない範囲において、多くの変形例や配置の変更が可能であることはいうまでもない。
例えば、原音声に複数の処理音声を重ねて放射したりすることも考えられる手法の例である。
Although the present invention has been described based on the embodiments, the embodiments merely show the principle and application of the present invention, and the embodiments are defined in the claims. Needless to say, many modifications and arrangements can be made without departing from the spirit of the present invention.
For example, it is an example of a technique in which a plurality of processed sounds are radiated on the original sound.
2 ブース、 4 ITパーティション、 6 顧客、 8 受聴者、 10 記憶装置、 20 A/D部、 30 部分抽出部、 72 出力部、 90 部分変更部、 100 音声情報秘話システム、 SD SDコントローラ部、 SP スピーカ、 Mic マイクロホン。 2 booths, 4 IT partitions, 6 customers, 8 listeners, 10 storage devices, 20 A / D units, 30 partial extraction units, 72 output units, 90 partial change units, 100 voice information secrecy systems, SD SD controller units, SPs Speaker, Mic microphone.
Claims (7)
前記部分抽出部によって抽出された変更対象部分の信号を変更する部分変更部と、
前記部分変更部によって変更された変更対象部分の信号を、前記発話中の音声が受聴されている領域に音声を出力可能な音声出力手段に出力する出力部と、を備えることを特徴とする音声変更装置。 A partial extraction unit that extracts a signal of a change target portion based on a waveform of the voice signal from a voice signal representing the voice being uttered;
A partial changing unit that changes the signal of the change target portion extracted by the partial extracting unit;
An output unit configured to output a signal of the change target portion changed by the partial change unit to an audio output unit capable of outputting audio to a region where the voice being spoken is received; Change device.
前記集音手段によって生成された音声信号を変更する音声変更装置と、
前記音声変更装置によって変更された音声信号を音声に変換して前記発話中の音声が受聴されている領域に出力する音声出力手段と、を備え、
前記音声変更装置は、
前記集音手段によって生成された音声信号から、前記音声信号の波形に基づいて変更対象部分の信号を抽出する部分抽出部と、
前記部分抽出部によって抽出された変更対象部分の信号を変更する部分変更部と、
前記部分変更部によって変更された変更対象部分の信号を前記音声出力手段に出力する出力部と、を含むことを特徴とする音声情報秘話システム。 Sound collecting means for receiving the voice being uttered and generating a voice signal representing the voice;
A sound changing device for changing a sound signal generated by the sound collecting means;
Voice output means for converting the voice signal changed by the voice changing device into voice and outputting the voice to the area where the voice being spoken is received,
The voice changing device is
A partial extraction unit that extracts a signal of a change target portion based on a waveform of the audio signal from the audio signal generated by the sound collecting unit;
A partial changing unit that changes the signal of the change target portion extracted by the partial extracting unit;
And an output unit that outputs the signal of the change target portion changed by the partial change unit to the voice output unit.
抽出された変更対象部分の信号を変更するステップと、
変更された変更対象部分の信号を音声に変換し、変換された音声を前記発話中の音声が受聴されている領域に出力するステップと、を含むことを特徴とする音声変更方法。 Extracting a signal to be changed from a voice signal representing a voice being uttered based on a waveform of the voice signal;
Changing the extracted signal of the change target portion;
Converting the changed signal of the change target portion into a voice, and outputting the converted voice to a region where the voice being spoken is listened to.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010145038A JP5662711B2 (en) | 2010-06-25 | 2010-06-25 | Voice changing device, voice changing method and voice information secret talk system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010145038A JP5662711B2 (en) | 2010-06-25 | 2010-06-25 | Voice changing device, voice changing method and voice information secret talk system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2012008391A true JP2012008391A (en) | 2012-01-12 |
| JP5662711B2 JP5662711B2 (en) | 2015-02-04 |
Family
ID=45539001
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010145038A Expired - Fee Related JP5662711B2 (en) | 2010-06-25 | 2010-06-25 | Voice changing device, voice changing method and voice information secret talk system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5662711B2 (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014026428A (en) * | 2012-07-26 | 2014-02-06 | Hybridmom Llc | Supervising system |
| US20220399003A1 (en) * | 2021-06-10 | 2022-12-15 | Katsunori SUETSUGU | Sound insulation apparatus |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005084645A (en) * | 2003-09-11 | 2005-03-31 | Glory Ltd | Masking device |
| JP2008090296A (en) * | 2006-09-07 | 2008-04-17 | Yamaha Corp | Voice-scrambling-signal creation method and apparatus, and voice scrambling method and device |
| JP2008233671A (en) * | 2007-03-22 | 2008-10-02 | Yamaha Corp | Sound masking system, masking sound generation method, and program |
| JP2008233670A (en) * | 2007-03-22 | 2008-10-02 | Yamaha Corp | Sound masking system, sound masking generating method, and program |
-
2010
- 2010-06-25 JP JP2010145038A patent/JP5662711B2/en not_active Expired - Fee Related
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005084645A (en) * | 2003-09-11 | 2005-03-31 | Glory Ltd | Masking device |
| JP2008090296A (en) * | 2006-09-07 | 2008-04-17 | Yamaha Corp | Voice-scrambling-signal creation method and apparatus, and voice scrambling method and device |
| JP2008233671A (en) * | 2007-03-22 | 2008-10-02 | Yamaha Corp | Sound masking system, masking sound generation method, and program |
| JP2008233670A (en) * | 2007-03-22 | 2008-10-02 | Yamaha Corp | Sound masking system, sound masking generating method, and program |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014026428A (en) * | 2012-07-26 | 2014-02-06 | Hybridmom Llc | Supervising system |
| US20220399003A1 (en) * | 2021-06-10 | 2022-12-15 | Katsunori SUETSUGU | Sound insulation apparatus |
| US11776523B2 (en) * | 2021-06-10 | 2023-10-03 | Katsunori SUETSUGU | Sound insulation apparatus |
Also Published As
| Publication number | Publication date |
|---|---|
| JP5662711B2 (en) | 2015-02-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5511342B2 (en) | Voice changing device, voice changing method and voice information secret talk system | |
| US10475467B2 (en) | Systems, methods and devices for intelligent speech recognition and processing | |
| Cooke et al. | Spectral and temporal changes to speech produced in the presence of energetic and informational maskers | |
| KR101606966B1 (en) | Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation | |
| KR100931419B1 (en) | Speech processing methods and devices, storage media and voice systems | |
| Binns et al. | The role of fundamental frequency contours in the perception of speech against interfering speech | |
| JP5955340B2 (en) | Acoustic system | |
| JP2023159381A (en) | Speech recognition audio system and method | |
| KR100643310B1 (en) | Method and apparatus for shielding talker voice by outputting disturbance signal similar to formant of voice data | |
| JP2009294642A (en) | Method, system and program for synthesizing speech signal | |
| JP7179753B2 (en) | Speech privacy system and/or related methods | |
| JP7179748B2 (en) | Speech privacy system and/or related methods | |
| JP2020514819A (en) | Speech privacy system and / or related methods | |
| Wang et al. | Improving the intelligibility of speech for simulated electric and acoustic stimulation using fully convolutional neural networks | |
| Raitio et al. | Analysis of HMM-Based Lombard Speech Synthesis. | |
| Akagi et al. | Privacy protection for speech based on concepts of auditory scene analysis | |
| JP2012008393A (en) | Device and method for changing voice, and confidential communication system for voice information | |
| JP5662711B2 (en) | Voice changing device, voice changing method and voice information secret talk system | |
| JP5662712B2 (en) | Voice changing device, voice changing method and voice information secret talk system | |
| Hodoshima et al. | Intelligibility of speech spoken in noise/reverberation for older adults in reverberant environments. | |
| CN118355675A (en) | A synthesis-based approach to clear hearing in noisy situations | |
| Ohshio et al. | Active speech obscuration with speaker-dependent human speech-like noise for speech privacy | |
| Kambayashi et al. | Improving intelligibility of speech spoken under reverberant environment conditions: Effect of reverberation frequency characteristics on speech intelligibility | |
| Song et al. | Smart Wristwatches Employing Finger-Conducted Voice Transmission System | |
| Abdipour et al. | Two‐Microphone Binary Mask Speech Enhancement in Diffuse and Directional Noise Fields |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130109 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131220 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140204 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140326 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141202 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141205 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5662711 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |