JP2018191145A - 収音装置、収音方法、収音プログラム及びディクテーション方法 - Google Patents
収音装置、収音方法、収音プログラム及びディクテーション方法 Download PDFInfo
- Publication number
- JP2018191145A JP2018191145A JP2017092209A JP2017092209A JP2018191145A JP 2018191145 A JP2018191145 A JP 2018191145A JP 2017092209 A JP2017092209 A JP 2017092209A JP 2017092209 A JP2017092209 A JP 2017092209A JP 2018191145 A JP2018191145 A JP 2018191145A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- sound
- noise
- sound collection
- dictation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 86
- 230000008569 process Effects 0.000 claims description 30
- 238000004891 communication Methods 0.000 claims description 29
- 238000009826 distribution Methods 0.000 claims description 22
- 230000009467 reduction Effects 0.000 claims description 21
- 238000011946 reduction process Methods 0.000 claims description 9
- 230000007613 environmental effect Effects 0.000 description 78
- 230000005236 sound signal Effects 0.000 description 37
- 238000010586 diagram Methods 0.000 description 17
- 230000004397 blinking Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000004378 air conditioning Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- JOYRKODLDBILNP-UHFFFAOYSA-N Ethyl urethane Chemical compound CCOC(N)=O JOYRKODLDBILNP-UHFFFAOYSA-N 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000003811 finger Anatomy 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000005316 response function Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 239000004745 nonwoven fabric Substances 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Otolaryngology (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】ディクテーションのための収音に際して、環境ノイズを示す提示を行うことにより、結果的にディクテーション作業を効率化する。
【解決手段】 収音装置は、音を収音するマイクロホンにより構成された収音部と、前記収音部において収音された音声に基づいてディクテーションにおけるノイズを判定するノイズ判定部と、前記ノイズ判定部の判定結果に基づく提示を行う提示部とを具備することにより、ディクテーションのための収音に際して、環境ノイズを示す提示を行うことにより、結果的にディクテーション作業を効率化する。
【選択図】図1
【解決手段】 収音装置は、音を収音するマイクロホンにより構成された収音部と、前記収音部において収音された音声に基づいてディクテーションにおけるノイズを判定するノイズ判定部と、前記ノイズ判定部の判定結果に基づく提示を行う提示部とを具備することにより、ディクテーションのための収音に際して、環境ノイズを示す提示を行うことにより、結果的にディクテーション作業を効率化する。
【選択図】図1
Description
本発明は、ディクテーションに有効な収音装置、収音方法、収音プログラム及びディクテーション方法に関する。
従来、収音装置に採用されるマイクロホンとしては、利用目的に応じて多種多様のものが開発されている。例えば、収音装置として、複数のマイクロホンを用いることで、高い感度が得られる方向を切換えることが可能な指向性切換え機能を有する装置も開発されている。例えば、ユーザが指向性を切換えて、いずれの方向の感度を高くするかを指定することで、ユーザがマイクロホンの向きを変えることなく、所望の方向の感度を高くすることが可能である。
収音装置は、拡声のため、人同士の会話のため、人と機械との会話のため等の種々の目的に用いられる。特許文献1においては、ファジィ制御によって話者のまわりの雑音レベルを検出し、これに基づいて出力音声の音量を制御する技術が開示されている。また、特許文献2には、ハンズフリー通話に際して、周囲の雑音による音声応答機能の誤作動を良好に防止可能な音声応答機能付電話装置が開示されている。
また、このような収音装置は、ディクテーションシステムにも利用される。近年、音声認識技術の進歩に伴い、音声入力によってテキストを生成するディクテーションシステムを搭載した機器が商品化されている。ディクテーションシステムでは、従来キーボード等を利用して入力していたテキストを音声によって入力する。
ディクテーションシステムは、パーソナルコンピュータ上での口述筆記の自動化や携帯端末におけるメール文章の入力等、様々な分野で利用される。例えば、医療分野においては、カルテ作成等の利用方法も考えられる。医師にとっては、様々な医療器具や情報端末の取り扱いや、患者への接触のために必要な時間を確保する必要があり、カルテを短時間に作成できるディクテーションシステムは極めて有用である。
ところで、音声認識処理は、マイクロホンによって入力音声を取込み、取込んだ入力音声から音響特徴量を抽出し、抽出した特徴量と音響モデルとのマッチング演算によってテキストを求めるものである。従って、マイクロホンによって人の声のみが入力される場合には、比較的高い音声認識性能を得ることができる反面、ディクテーション対象の音声以外のノイズ成分が入力音声に含まれる場合には、音声認識性能が著しく低下する。
しかしながら、例えば医療現場においては、医師を含む多数の医療従事者が同一空間に存在する場合が多く、これらの医療従事者等の会話、空調設備や各種医療機器の動作音等の各種環境ノイズが発生する。特に、ディクテーション対象の音声の外に他人の音声が環境ノイズとして発生している場合には、対象音声に対する音声認識性能が低下し確実なディクテーションができなくなってしまうことがある。しかしながら、ディクテーションを行う人物は、環境ノイズの影響によりディクテーションが不能となるか否かを判断することはできず、無駄な発声を繰り返したりすることがあるという問題があった。
本発明は、ディクテーションのための収音に際して、環境ノイズを示す提示を行うことにより、結果的にディクテーション作業を効率化することができる収音装置、収音方法、収音プログラム及びディクテーション方法に関する。
本発明の一態様による収音装置は、音を収音するマイクロホンにより構成された収音部と、前記収音部において収音された音声に基づいてディクテーションにおけるノイズを判定するノイズ判定部と、前記ノイズ判定部の判定結果に基づく提示を行う提示部とを具備する。
また、本発明の一態様による収音方法は、マイクロホンにより構成された収音部によって音を収音する手順と、前記収音部において収音された音声に基づいてディクテーションにおけるノイズを判定する手順と、前記ノイズの判定結果に基づく提示を行う提示手順とを具備する。
また、本発明の一態様による収音プログラムは、コンピュータに、マイクロホンにより構成された収音部によって音を収音する手順と、前記収音部において収音された音声に基づいてディクテーションにおけるノイズを判定する手順と、前記ノイズの判定結果に基づく提示を行う提示手順とを実行させる。
また、本発明の一態様によるディクテーション方法は、収音部によって収音された第1の音声、前記収音された第1の音声に対するノイズリダクション処理によって取得された第2の音声及び前記収音部の収音期間におけるノイズの情報が記録された記録部から、前記第2の音声を読み出して読み出した前記第2の音声に対する音声認識によって第1のディクテーション処理を行ってドキュメントを生成する手順と、前記第1のディクテーション処理によって前記ドキュメントを生成することができない場合には、前記第2の音声及び前記ノイズの情報を読み出して読み出した前記第2の音声に前記ノイズの情報に基づくノイズを付加して得た第3の音声に対する音声認識によって第2のディクテーション処理を行ってドキュメントを生成する手順と、前記第2のディクテーション処理によって前記ドキュメントを生成することができない場合には、読み出した前記第1の音声に対してノイズリダクション処理を行って得た第4の音声に対する音声認識によって第3のディクテーション処理を行ってドキュメントを生成する手順とを具備する。
本発明によれば、ディクテーションのための収音に際して、環境ノイズを示す提示を行うことにより、結果的にディクテーション作業を効率化することができるという効果を有する。
以下、図面を参照して本発明の実施の形態について詳細に説明する。
(第1の実施の形態)
図1は本発明の第1の実施の形態に係る収音装置を示すブロック図である。また、図2は図1の収音装置からの音声ファイルを受信してディクテーションを行うディクテーション装置を示すブロック図であり、図3は図1の収音装置からの音声ファイルを受信して、手入力によるディクテーションを行うための再生記録機器を示す説明図である。
図1は本発明の第1の実施の形態に係る収音装置を示すブロック図である。また、図2は図1の収音装置からの音声ファイルを受信してディクテーションを行うディクテーション装置を示すブロック図であり、図3は図1の収音装置からの音声ファイルを受信して、手入力によるディクテーションを行うための再生記録機器を示す説明図である。
なお、本実施の形態においては、収音装置とディクテーション装置とが別体に構成された例を示しているが、図1及び図2の装置が一体化された装置を構成することも可能であり、例えば、図1及び図2の機能を有するICレコーダを構成することもできる。また、図1の収音装置に図2のディクテーション機能を含めて構成することも可能であり、例えば、ディクテーション機能を有するマイクロホン装置を構成することも可能である。
図4は図1及び図2の各部を有して構成されたディクテーション機能を有する収音装置(マイクロホン装置)の外観の一例を示す説明図である。また、図5は収音装置のマイクロホン(以下、マイクという)2a1,2a2によるマイク部2aの構成を説明するための説明図である。
本実施の形態は、例えば、ディクテーション作業に際して、発声前に音声認識性能の障害となる環境ノイズを検出し、検出結果を提示することで、ディクテーション作業者がディクテーション環境がどのような環境であるかを認識することを可能にするものである。例えば、ディクテーション作業者は、発声前にディクテーション可能な環境であるか否かを判断することもできる。また、本実施の形態は、環境ノイズの検出結果を利用して収音特性を変化させることで、音声認識性能を向上させることもできるようになっている。
先ず、図4及び図5を参照してマイク部2aの構成について説明する。図4は収音装置1の筐体10aをユーザが左手51Lで把持し、右手51Rで操作している状態を、収音装置1の正面側から見て示したものである。また、図5は図4のA線において切断して収音装置1の内蔵物の配置の様子を左側方から見て模式的に示すものであり、ユーザが筐体10aの正面と背面を右手の親指53Rと人差し指54Rとによって把持している状態を示している。
筐体10aの正面の上端には筐体10aの長手方向に対して斜めに傾斜して配置されるフィルタ部42が構成されている。フィルタ部42は筐体10aの正面側上端に設けた開口部を閉塞するものであり、筐体10aの外部側から内部側に向かって、比較的荒いメッシュ状の金属部42a、不織布42b及び比較的細かいメッシュ状の金属部42cの3層構造を有する。フィルタ部42は、口52から発せられる音声のうちポップノイズを除去する。
筐体10a内部の背面側には、フィルタ部42に対向する位置に正面マイク2a1が配設されている。また、筐体10a内部の背面側には、正面マイク2a1の下方に、背面マイク2a2を配置する収納部44が設けられている。この収納部44の上面と正面マイク2a1の底面との間にはゴム等の弾性部材43bが配設され、正面マイク2a1の上面と筐体10aの上面との間にはゴム等の弾性部材43aが配設されている。弾性部材43a,43bによって、正面マイク2a1が筐体10a内に保持されると共に、筐体10aに生じる振動のマイク2a1への影響が緩和される。特に、弾性部材43a,43bによって指53R,54Rからの振動の影響を緩和することができる。
収納部44は筐体10aの背面に設けられた凹部により構成され、この凹部は多数の小孔を有する閉塞部材46によって閉塞されている。収納部44の凹部内に背面マイク2a2が配置される。マイク2a2の上面と凹部の上面との間にはウレタン等の弾性部材45aが配設され、マイク2a2の底面と凹部の底面との間にはウレタン等の弾性部材45bが配設される。弾性部材45a,45bによって、マイク2a2が凹部内に保持される。
また、筐体10a内部の下方側には、図1及び図2の各回路用の部品等が搭載された基板47が配置される。
正面マイク2a1は、図5の破線の収音範囲D1で収音可能な指向特性を有し、背面マイク2a2は、図5の破線の収音範囲D2で収音可能な指向特性を有する。本実施の形態においては、後述するように、電気的な制御によって、正面マイク2a1及び背面マイク2a2によるマイク部2aの全体的な指向特性を制御することができるようになっている。
なお、筐体10aの厚みをZmとし、正面マイク2a1とフィルタ部42との水平方向の距離(マイク深さ)をZdとする。装置の薄型化を考慮すると、厚みZmはなるべく小さい方が良い。また、マイク深さZdは、収音時に気流の影響を受けて音声に歪が生じない程度の十分な距離に設定する。また、弾性部材45a,45bとして用いるクッション材と弾性部材43a,43bとして用いるクッション材とを異なる材料にすることにより、筐体10a上面から収納部44底面までの高さYmが大きくなり過ぎることを防止している。
図1において、収音装置10には制御部1が設けられている。制御部1は、CPU等を用いたプロセッサによって構成されて、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で一部を置き換えてもよい。
収音部2は、複数のマイクロホンを有するマイク部2aを有している。図5の例ではマイク部2aは、正面マイク2a1と背面マイク2a2の2つのマイクロホンによって構成される。マイク部2aは、周囲の音を収音して収音音声を音声信号に変換して出力する。収音部2は指向性制御部2bを有しており、指向性制御部2bは、制御部1に制御されて、マイク部2aの収音の指向性を制御する。即ち、指向性制御部2bは、マイク部2aの収音に際して、最も感度が高くなる方向(以下、ビーム方向という)及び収音の範囲を制御することができるようになっている。
図6は図1中の指向性制御部2bの具体的な構成の一例を示す回路図である。
指向性制御部2bは、2つのマイク2a1,2a2からの出力をそれぞれデジタル信号に変換するAD変換器(ADC)61a,61bを有している。ADC61aは、マイク2a1からの音声信号をデジタル信号に変換して加算器62a,63aに出力する。また、ADC61bは、マイク2a2からの音声信号をデジタル信号に変換して加算器62b,63bに出力する。
加算器63aは、ADC61bの出力からADC61aの出力を減算して減算結果を乗算器64aに出力する。また、加算器63bは、ADC61aの出力からADC61bの出力を減算して減算結果を乗算器64bに出力する。
乗算器64a及び乗算器64bの制御端には、制御部1からそれぞれ第1及び第2の乗算係数が供給される。乗算器64aは加算器63aの出力と第1の乗算係数との乗算を行って乗算結果を加算器62aに出力し、乗算器64bは加算器63bの出力と第2の乗算係数との乗算を行って乗算結果を加算器62bに出力する。加算器62aは、ADC61aの出力と乗算器64aの出力とを加算して加算結果を出力する。また、加算器62bは、ADC61bの出力と乗算器64bの出力とを加算して加算結果を出力する。
マイク2a1は、筐体10aの正面斜め上方からの音声に対して最も感度が高くなる指向特性を有する。以下、マイク2a1によって収音される音を主音声という。また、マイク2a2は、筐体10a背面水平方向からの音声に対して最も感度が高くなる指向特性を有する。以下、マイク2a2によって収音される音を副音声という。
加算器62aの加算結果は、主音声と副音声とを第1の乗算係数に従った配分で加算した結果であり、この加算は、マイク2a1の収音範囲をマイク2a2の収音範囲側に第1の乗算係数に応じて広げたことに相当する。同様に、加算器62bの加算結果は、副音声と主音声とを第2の乗算係数に従った配分で加算した結果であり、この加算は、マイク2a2の収音範囲をマイク2a1の収音範囲側に第2の乗算係数に応じて広げたことに相当する。
加算器62a,62bの出力は、それぞれ単独の音声データとして出力するようになっていてもよく、例えば、加算器62aの出力を主音声データとし、加算器62bの出力を副音声データとして出力してもよい。また、加算器62a,62bの出力を合成して1つの音声データとして出力するようになっていてもよい。
このように収音部2は、マイク2a1,2a2からの主音声及び副音声のバランスを制御し、音声の指向性を狭くしたり、広くしたり、指向性を変えたりすることができる。即ち、加算器62a、62bから出力される各音声データは、正面側から背面側までの収音範囲の広がりを抑えた音声出力となる。乗算器64a、64bにおける第1,第2乗算係数を大きくすれば、広がり感をなくすことができ、乗算係数を小さくすれば広がり感を広げることができる。また、第1及び第2の乗算係数を適宜設定することにより、収音範囲の向き(ビーム方向)を調整することも可能である。なお、以後、マイク部2aの収音範囲とは、マイク2a1,2a2による全体的な収音範囲であって、指向性制御後のものをいうものとする。
また、本実施の形態においては、ADC61a,61bからの各音声信号を、そのまま出力することもできるようになっている。ADC61a,61bからの音声信号を用いることで、外部回路によって指向性制御を行うことも可能である。
収音部2には、ノイズリダクション(NR)部2cが設けられている。NR部2cは、制御部1に制御されて、マイク部2aによって取得された音声信号からノイズを除去する。
図7は図1中のNR部2cの具体的な構成の一例を示す回路図である。なお、図7は1系統の音声データを処理する回路であり、マイク2a1,2a2からの2つの音声信号を処理する場合には、図7と同様の構成の回路を2系統用いる。
図7において、指向性制御部2bからの各音声信号は入力部71に供給される。入力部71は入力された音声信号をそれぞれ取込んで、減算部72及び特定周波数音声判定部73に出力する。特定周波数音声判定部73は、入力された音声信号の周波数解析を行って、ノイズ成分の周波数を求める。
声の音声パターンは、単語や音節の感情表現や言い回しに従って、周囲のノイズと異なり、周波数特性が大きく変化する。一方、ノイズは、周波数特性の差異よりも音の大きさ(振幅)の変化が大きく、音の大きさがあまり変わらない人の声とは明らかに特徴が異なる。そこで、特定周波数音声判定部73は、周波数特性があまり変化しない特定周波数をノイズの周波数であるものと判定し、周波数特性が変化する成分を音声成分であると判定する。特定主波数音声判定部73は、判定結果を振幅変動予測部74に出力する。
振幅変動予測部74は、特定周波数音声判定部73からの判定結果に基づいて、特定周波数の振幅変動がノイズレベルの変動であるものとして、その変動を予測する。振幅変動予測部74は、予測結果をノイズレベルの変動の予測としてそのまま出力すると共に減算部72にも与える。減算部72は、入力された音声信号から振幅変動予測部74の予測結果を減算することによって、音声信号からノイズ成分を除去して出力する。
こうして、収音部2は、マイク部2aが収音した音声をデジタル化し、指向性制御前後の音声信号及びNR部2cによってノイズリダクション処理した音声信号を制御部1に出力する。
本実施の形態においては、収音部2にはノイズ判定部2dが設けられている。ノイズ判定部2dは、収音した音声のうち環境ノイズを求める。例えば、ノイズ判定部2dは、マイク2a1,2a2によって得られた音声信号の合成信号に基づいて環境ノイズを求めてよく、また、マイク2a1,2a2のいずれか一方、例えば背面マイク2a2によって得られた音声信号に基づいて環境ノイズを求めてよい。例えば、ノイズ判定部2dは、マイク2a1,2a2によって得られた音声信号の合成信号の二乗平均を求め、求めた二乗平均の値を環境ノイズとして求めて出力してもよい。また、ノイズ判定部2dは、例えば背面マイク2a2によって得られた音声信号の二乗平均を求め、求めた二乗平均の値を環境ノイズとして求めて出力してもよい。
なお、ノイズ判定部2dは、図6の指向性制御部2bのADC61a,61bの出力を用いて、環境ノイズを求めることができる。また、ノイズ判定部2dは、指向性制御部2bによって所定の指向特性が付与された指向性制御後の音声信号に基づいて環境ノイズを求めてもよい。
また、ノイズ判定部2dは、マイク部2aによって得られる音声のうち所定の周波数帯域の音声信号に基づいて環境ノイズを求めてもよい。また、例えば、ノイズ判定部2dは、マイク部2aによって得られる音声のうち所定の音声特徴の音声信号に基づいて環境ノイズを求めてもよい。例えば、ノイズ判定部2dは、マイク部2aによって得られる音声のうち人の話に基づく音声信号を音声特徴から抽出し、抽出した音声信号に基づいて環境ノイズを求めてもよい。
例えば、音声認識の対象以外の人の声は、音声認識に悪影響を与えることが考えられる。従って、音声成分の出力に基づいて環境ノイズの判定を行った場合には、音声認識性能に影響を与えるか否かを判定しやすい場合もある。そこで、例えば、ノイズ判定部2dは、図7のNR部2cの減算部72からの音声成分の出力に基づいて環境ノイズを求めてもよい。また、ノイズ判定部2dは、振幅変動予測部74のノイズ成分の出力に基づいて環境ノイズを求めてもよい。ノイズ判定部2dは、環境ノイズの判定結果を制御部1に出力するようになっている。
制御部1には、提示制御部1aが構成されている。提示制御部1aは、表示や音声出力に関する各種処理を実行する。収音装置10には提示部6が設けられている。提示部6は図示しない表示装置やスピーカ等によって構成することができる。提示部6は、例えば筐体10aの正面に設けられたLED48(図4参照)によって構成されていてもよい。提示制御部1aは、ノイズ判定部2dの判定結果を提示部6に表示させることができるようになっている。例えば、提示制御部1aは、環境ノイズの判定結果により、環境ノイズのノイズレベルが所定の閾値よりも大きい場合には、取得された環境ノイズのレベルでは十分な音声認識性能が得られず、ディクテーション不能であることを示す表示を表示させるようになっていてもよい。例えば、提示制御部1aは、提示部6としてLED48が採用されている場合には、LED48を赤色で点滅させることによって、ディクテーション不能であることを提示するようになっていてもよい。
また、提示制御部1aは、提示部6がLED48によって構成されている場合には、LED48を青色で点滅させることによって環境ノイズの判定期間であることを示すようになっていてもよく、LED48を青色で点灯させることによって環境ノイズのレベルが比較的低く、ディクテーション可能であることを示すようになっていてもよい。
また、提示部6として図示しないLCDが採用されている場合には、提示制御部1aは、提示部6の表示画面上に、環境ノイズの判定結果を表示させるようになっていてもよい。例えば、提示制御部1aは、提示部6の表示画面上に、「現在の環境ノイズではディクテーション不能です」等のエラーメッセージを表示させるようになっていてもよく、また、提示部6がスピーカによって構成されている場合には、エラーメッセージの音声をスピーカから出力させるようになっていてもよい。
収音装置10には操作部3が設けられている。操作部3は、各種キーやボタン等によって構成されており、ユーザ操作に基づく操作信号を制御部1に出力するようになっている。例えば、図4の例では、筐体10aの正面には、操作部3として、録音開始ボタン49a、停止ボタン49b、再生開始/一時停止ボタン49c、巻戻しボタン49d及び早送りボタン49e等が配設されている。また、操作部3として、筐体10aの正面には、環境ノイズの判定モードに移行するためのモードボタン50a,50bやディクテーションの開始を指示するボタン50c等も設けられている。
制御部1は、操作部3のユーザ操作に基づく操作信号が与えられ、この操作信号に基づいて各部を制御するようになっている。例えば、操作部3によってユーザはマイク部2aの指向特性を制御する操作を行うこともでき、制御部1は、ユーザ操作に応じた指向特性をマイク部2aに設定することができるようになっている。
また、収音装置10には、姿勢判定部4も設けられている。姿勢判定部4は、例えば、加速度センサやジャイロセンサ等によって構成することができ、収音装置10の筐体10aの姿勢を判定して判定結果を制御部1に出力するようになっている。また、音質調整部7は、制御部1に制御されて、収音部2によって収音された音声の周波数特性を調整することができる。収音装置10には、時計部8も設けられている。時計部8は、時刻情報を発生して制御部1に出力する
収音装置10には通信部5が設けられている。通信部5は、制御部1に制御されて、外部機器との間で有線又は無線によるデータの送信及び受信が可能である。例えば、通信部5としては、USB規格の有線通信やWifi等の無線LANやブルートゥース(登録商標)等による無線通信が可能に構成されている。制御部1は、通信部5を介して、マイク部2aによって収音したそのままの音声信号、指向特性制御後の音声信号、ノイズリダクション処理後の音声信号、或いは音声調整後の音声信号等を外部機器に送信することができるようになっている。
収音装置10には通信部5が設けられている。通信部5は、制御部1に制御されて、外部機器との間で有線又は無線によるデータの送信及び受信が可能である。例えば、通信部5としては、USB規格の有線通信やWifi等の無線LANやブルートゥース(登録商標)等による無線通信が可能に構成されている。制御部1は、通信部5を介して、マイク部2aによって収音したそのままの音声信号、指向特性制御後の音声信号、ノイズリダクション処理後の音声信号、或いは音声調整後の音声信号等を外部機器に送信することができるようになっている。
また、収音装置10には、フィルタ情報記録部9が設けられている。フィルタ情報記録部9は、フィルタ部42のフィルタ特性の情報が記録されている。制御部1は、フィルタ情報記録部9からのフィルタ特性の情報に基づいて音質調整部7を設定することで、フィルタ部42の周波数特性を補正することができ、補正後の音声信号を通信部5を介して出力することができる。また、制御部1は、フィルタ特性の情報をそのまま通信部5を介して外部機器に出力することもできる。
なお、制御部1には、トラック入力部1bが構成されている。トラック入力部1bは、フレーズを判定して、判定した各フレーズにインデックスを付ける処理を行うようになっている。また、収音装置10にはノイズ情報記録部11が設けられている。ノイズ情報記録部11は、例えばICメモリによって構成されていてもよく、制御部1に制御されて、ノイズ情報等を記録する。
次に、図2を参照してディクテーション装置の構成について説明する。図2に示すように、ディクテーション装置20には、制御部21が設けられている。制御部21は、CPU等を用いたプロセッサによって構成されて、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で一部を置き換えてもよい。
ディクテーション装置20は通信部22を有している。通信部22は、制御部21に制御されて、収音装置10の通信部5との間で所定の伝送路を介して通信可能である。通信部22は、収音装置10から送信された各種音声信号を制御部21に出力することができる。
ディクテーション装置20にはテキスト化部23が設けられている。テキスト化部23は、制御部21に制御されて、公知の音声認識処理により、入力された音声信号に基づくテキストを生成する。記録部24には、このテキスト化に用いる音声テキスト化辞書部24aを有する。テキスト化部23は、音声信号の特徴量を求め、求めた特徴量と音響モデルとのマッチング演算を行い、音声テキスト化辞書部24aの音声テキストを参照して、音声信号に含まれる人の声の情報をテキスト化する。
記録部24にはフォーマット情報部24bも記録されている。フォーマット情報部24bは、テキスト化された音声情報から所定のドキュメントを生成するためのフォーマットが記述されたフォーマット情報が記録されている。制御部21のドキュメント化部21cは、フォーマット情報部24bのフォーマット情報を参照することで、テキスト化された音声情報からドキュメントを生成する。
図8はドキュメント化部21cによって生成されるドキュメントの一例を説明するための説明図である。図8はドキュメントとしてカルテを生成する例を示している。ドキュメント化部21cは、フォーマット情報によってカルテのフォーマットを取得してカルテのドキュメントを生成する。図8のカルテは、「患者」、「年齢」、「性別」、「部位」、「所見」及び「日付」の項目を有する。
例えば、医師が図8のカルテの各項目順に発話するものとする。この場合には、テキスト化部23は、この項目順に発話された音声をテキスト化することで、各項目に設定すべきテキストを順次生成する。ドキュメント化部21cは、順次取得されたテキストを、各項目の欄に配置することで、カルテを生成する。
また、例えば、ドキュメント化部21cは、人の名前がテキスト化された場合には、「患者」の欄にテキスト化された名前を配置し、「x歳」と発話された音声がテキスト化された場合には、「年齢」の欄にテキスト化された年齢を配置する等のように、テキスト化された情報の内容を判定して、カルテの各欄にテキスト化された情報を配置するようにしてもよい。また、例えば、ドキュメント化部21cは、テキスト化された文字列が各項目の文字列に一致することによって、各項目に対する入力操作であるものと判定してもよい。例えば、「患者」の発音に続けて入力された音声のテキストを「患者」の欄に配置するようにしてもよい。こうして、ドキュメント化部21cにより、自動的にカルテが生成される。
制御部21には、記録再生制御部21aが構成されている。記録再生制御部21aは、通信部22を介して入力された各種音声信号を記録部24に与えて記録させることができる。また、記録再生制御部21aは、記録部24に記録されている音声を読み出して再生することができる。テキスト化部23及びドキュメント化部21cは、再生された音声信号に基づいて、テキスト化処理及びドキュメント化処理を行うこともできるようになっている。
また、制御部21には、音声処理部21bも設けられている。音声処理部21bは、通信部22を介して受信した音声信号又は記録再生制御部21aによって再生された音声信号に対して、各種音声処理が可能である。例えば、音声処理部21bは、収音装置10の指向性制御部2bと同様の指向性制御、ノイズリダクション処理、音質調整処理等が可能である。これにより、収音装置10からマイク部2aによって取得された音声信号がそのまま与えられた場合でも、音声処理部21bによる音声処理によって、テキスト化部23及びドキュメント化部21cは、効果的なテキスト化処理及びドキュメント化処理を行うことができるようになっている。
次に、図3を参照して再生記録装置30について説明する。図3は再生記録装置30として、例えばパーソナルコンピュータ30aを採用することができることを示しており、パーソナルコンピュータ30aによって、再生記録装置30を構成することができる。この場合には、パーソナルコンピュータ30aを操作するキーボード34aが、再生記録装置30の入力部34に相当し、パーソナルコンピュータ30aに内蔵された図示しないハードディスクが、再生記録装置30の記録部33に相当する。
再生記録装置30は、通信部31を有している。通信部31は、収音装置10の通信部5との間で所定の伝送路を介して通信可能である。通信部31は、収音装置10から送信された各種音声信号を音声再生部32に出力することができる。
音声再生部32は、図示しないスピーカを備えており、通信部31を介して受信された音声信号に基づく音声を出力する。パーソナルコンピュータ30aの操作者35は、音声再生部32によって出力される音声を聞きながら、入力部34(キーボード34a)を操作してテキスト入力を行う。入力部34に対する入力操作によって、記録部33にテキストデータが記憶される。
次に、このように構成された実施の形態の動作について図9から図14を参照して説明する。図9は収音装置の動作を説明するためのフローチャートである。図10は環境ノイズ判定処理の具体的な手順の一例を示すフローチャートである。図11A及び図11Bは提示制御部1aによるLEDの点灯制御を説明するための説明図である。図12Aから図12Eは実施の形態の動作を説明するための説明図である。また、図13は音声ファイルの構成の一例を示す説明図である。図14はディクテーション装置の動作を説明するためのフローチャートである。
(収音)
図12Aから図12Eは本実施の形態における収音装置を使用する様子を示している。図12Aはユーザ81が右手82Rで筐体10aを把持している様子を示している。例えば、本実施の形態は、ディクテーションに際して、音声認識精度を向上させるために、収音部2を構成するマイク部2aに口を近づけて発話するものとする。例えば、図12A及び図5に示すように、ユーザ81は、右手82Rで筐体10aを把持して、正面マイク2a1によって音声を取得しやすいように、口83(図5では口52)をフィルタ部42に近づけて発話を行う。なお、図12Aの収音範囲Dwは、正面マイク2a1及び背面マイク2a2によるマイク部2aの収音範囲であって、指向性制御により比較的広い収音範囲に設定された状態を示している。
図12Aから図12Eは本実施の形態における収音装置を使用する様子を示している。図12Aはユーザ81が右手82Rで筐体10aを把持している様子を示している。例えば、本実施の形態は、ディクテーションに際して、音声認識精度を向上させるために、収音部2を構成するマイク部2aに口を近づけて発話するものとする。例えば、図12A及び図5に示すように、ユーザ81は、右手82Rで筐体10aを把持して、正面マイク2a1によって音声を取得しやすいように、口83(図5では口52)をフィルタ部42に近づけて発話を行う。なお、図12Aの収音範囲Dwは、正面マイク2a1及び背面マイク2a2によるマイク部2aの収音範囲であって、指向性制御により比較的広い収音範囲に設定された状態を示している。
図9のステップS1において、制御部1は録音モードが設定されているか否かを判定する。例えば、図4の録音開始ボタン49aが操作されることによって、録音モードに移行する。なお、図1の収音装置10は音声記録用の記録部を有していないので、録音モードでは、収音による各種音声信号を通信部5から送信する処理が行われ、図2のディクテーション装置20において音声信号の記録部24への記録が行われる。従って、収音装置10については、図9の録音は収音を意味する。このように、図9は収音装置10とディクテーション装置20とによって構成された例えばICレコーダ等の装置の動作を示している。なお、図1の収音装置10に音声記録用の記録部を設けて、収音装置10単体で録音が行われるようになっていてもよい。なお、ディクテーションに際して録音は必ずしも必要ではないが、外部機器や、図示しないクラウド上のコンピュータにおいてディクテーション処理を行うことを考慮した場合、録音を行った方がよい。
本実施の形態においては、ディクテーション作業に先だって、環境ノイズ判定モードを実行する。制御部1は、電源投入によって自動的に環境ノイズ判定モードに移行してもよく、ユーザ操作に基づいて環境ノイズ判定モードに移行してもよい。例えば、ユーザが図4に示すように、モードボタン50a,50bを同時に所定秒数(例えば5秒間)押すことによって、環境ノイズ判定モードに移行するようになっていてもよい。
制御部1は、ステップS1において録音モードが指定されていないものと判定すると、ステップS2において、環境ノイズ判定モードが指定されているか否かを判定する。制御部1は、ステップS2において、環境ノイズ判定モードが指定されていないと判定した場合には、処理をステップS21に移行する。ステップS21〜S24は、ディクテーション装置20の制御部21による制御を示しており、制御部21は、ユーザ操作に基づいて記録部24から音声ファイルを選択して(ステップS21)、再生する(ステップS22)。制御部21は、ユーザによって送信要求がされているか否かを判定し(ステップS23)、送信要求されている場合には送信を行う(ステップS24)。
図9のステップS2〜S8は、環境ノイズの判定処理を示している。また、図10の各ステップは、図9のステップS2〜S5の各手順の具体例を示している。図10においては、ステップS31においては、制御部1はボタン50a,5bが同時に5秒以上押されたことによって、環境ノイズ判定モードに移行するようになっている。
環境ノイズ判定モードが指定されると、制御部1は図9のステップS2からステップS3に処理を移行して、ガイドを発生する。このガイドは、環境ノイズ判定モードに移行したことをユーザに告知するためのものであり、例えば、制御部1は、収音装置1の筐体10aを口元に構えた状態で声を出さないように、音声や画面表示によって指示する。また、図10の例では、制御部1は、ステップS32において、LED48を青色で点滅させることで、環境ノイズ判定モードに移行したことを提示する。
図11Aはこの場合におけるLED48の点滅制御を示している。図11Aの例では、ハイレベル(H)が点灯状態、ローレベル(L)が消灯状態を示し、300ms(秒)毎に点灯と消灯とを繰り返す点滅が行われることを示している。
ユーザ81はガイド表示や、LED48の点滅状態によって、環境ノイズ判定モードに移行したことを認識することができる。これにより、ユーザが環境ノイズ判定モードの実施中に筐体10aの姿勢を変化させてしまったり、不要な発話をしてしまったりすることを防止することができる。
次に、制御部1は、図9のステップS4(図10のステップS33)において、ノイズ判定を行う。この場合には、制御部1は、指向性制御部2bを制御して、マイク部2aの収音範囲を最も広い収音範囲に設定する。収音部2のノイズ判定部2dは、環境ノイズのレベル判定を行って、判定結果を制御部1に出力する。制御部1は、この判定結果を提示部6に表示する(ステップS5)。なお、ユーザ81によって、マイク部2aの指向特性が設定されている場合には、ユーザ設定による指向特性の状態で環境ノイズを判定してもよい。
例えば、制御部1は、判定結果によって、ディクテーションに必要な音声認識性能が得られるか否かを判定する。例えば、図10のステップS34において、環境ノイズのレベルが所定の閾値よりも大きいか否かを判定する。制御部1は、環境ノイズのレベルが所定の閾値よりも大きい場合には、ディクテーションに必要な音声認識性能が得られないと判定し、環境ノイズのレベルが所定の閾値以下の場合には、ディクテーションに必要な音声認識性能が得られるものと判定してもよい。
制御部1は、環境ノイズのレベルが比較的小さく、ディクテーションに必要な音声認識性能が得られると判定した場合には、提示制御部1aによって、LED48を青で点灯させる(ステップS35)。次に、制御部1は、所定時間(例えば30秒間)点灯が継続されたか否かを判定し(ステップS36)、青色の点灯が所定時間継続すると、処理をステップS37に移行してLED48を消灯し、処理を終了する。なお、青の点灯時間が所定期間に到達するまでは、処理はステップS33に戻される。
ここで、図12Bに示すように、収音範囲Dw内の方向に空調装置85が存在し、空調装置85から比較的大レベルの騒音86が発生しているものとする。この場合には、環境ノイズのレベルが所定の閾値よりも大きくなることがある。制御部1は、環境ノイズのレベルが比較的大きく、ディクテーションに必要な音声認識性能が得られないと判定した場合には、提示制御部1aによって、LED48を赤で点滅させる(ステップS41)。図11Bはこの場合におけるLED48の点滅制御を示している。図11Bの例では、100ms(秒)毎に点灯と消灯とを繰り返す比較的高速な点滅が行われることを示している。
ユーザ81はLED48の赤い色の比較的高速な点滅によって、環境ノイズのレベルが高く、十分な音声認識性能が得られないことを、ディクテーション作業の前に認識することができる。制御部1は、所定時間(例えば30秒間)、高速の点滅が継続されたか否かを判定し(ステップS42)、赤色の高速点滅が所定時間継続すると、処理をステップS43に移行してLED48を消灯し、処理を終了する。なお、赤の点滅時間が所定期間に到達するまでは、処理はステップS33に戻される。
このように、本実施の形態においては、ディクテーション作業の開始前において、環境ノイズのレベルを判定してその結果をユーザに提示するようになっている。これにより、ユーザは、例えばディクテーションに必要な音声認識性能が得られるか否かを、ディクテーション作業の前に事前に確認することができる。
更に、本実施の形態においては、音声認識性能を向上させるために、環境ノイズ源の方向を特定するための走査を行うことができるようになっている。制御部1はステップS6においてマイク部2aの収音範囲を狭くすると共に、収音範囲を変化させて、環境ノイズを判定する。制御部1は、姿勢判定部4の出力によって、筐体10aの姿勢を求める。例えば、制御部1は、姿勢判定部4によって判定された筐体10aの所定の姿勢の状態を例えば直交座標系において基準姿勢として求め、この基準姿勢を基準に、マイク部2aの各ビーム方向を判断し、ビーム方向毎に環境ノイズを求めてのノイズ分布情報としてノイズ情報記録部11に記録する。即ち、ノイズ分布情報は、環境ノイズの判定期間において、ノイズの方向及び強さをノイズの分布として求めたものである。
図12Cはノイズ源の方向特定のための走査を示しており、マイク部2aの収音範囲Dnmは十分に狭くなっている。図12Cの例では、空調装置85はこの収音範囲Dnmの方向に位置することから、騒音86により収音範囲Dnmにおける環境ノイズレベルが比較的高くなる。制御部1は、マイク部2aの収音範囲を狭くした状態でビーム方向を変化させることによって、基準姿勢を基準にしてノイズ源の方向の分布及び各ノイズ源によるノイズレベルをノイズ分布情報として求める。
制御部1は、ステップS7において、走査可能な全ての方向を走査したか否かを判定し、全ての方向を走査するまでステップS6,S7の処理を繰り返す。全ての方向の走査が終了すると、制御部1は、ステップS8において、各方向について求めたノイズのノイズ分布情報をノイズ情報記録部11に記録すると共に、走査結果によっては、警告を発する。例えば、全ての走査方向において、環境ノイズ源のレベルが所定の閾値よりも大きく、ディクテーションに必要な音声認識性能が得られないと判定した場合には、その旨を示す表示を提示部6に表示させたり、音声出力させたりする。或いは、所定レベル以上の環境ノイズ源がいずれの方向に存在するかを提示するようになっていてもよい。
次に、ユーザ81はディクテーション作業の開始のために、録音モードを指定するものとする。制御部1は、ステップS1において、録音モードが指定されているものと判定すると、ステップS11において、環境ノイズのレベルが所定の閾値よりも小さいか否かを判定する。制御部1は、環境ノイズのレベルが所定の閾値よりも小さい場合、例えばステップS4において環境ノイズレベルが比較的小さいと判定した場合には、処理をステップS20に移行して、広い収音範囲を設定した状態で収音を行い、収音した音声等を通信部5から送信してディクテーション装置20において記録させる。この場合には、環境ノイズレベルが比較的小さいので、十分な音声認識性能が得られると考えられる。
例えば、ユーザ81は、図12Aに示すように、筐体10aを右手82Rによって把持し、マイク部2aに口83を近づけた状態で発話する。収音部2は、ユーザ81の音声を取得し、マイク2a1,2a2によって取得されたままの音声データ、指向性制御部2bによる指向性制御後の音声データ、NR部2cによるノイズキャンセル後の音声データを制御部1に出力する。なお、収音部2は、指向性に関する指向性情報、ノイズリダクション処理に関するNR情報についても制御部1に出力する。制御部1は、収音部2からの各種音声データをそのまま、或いは音質調整部7によって音質調整した後、通信部5を介して外部に送信する。なお、制御部1は、指向性情報、NR情報、フィルタ情報記録部9に記録されているフィルタ情報についても通信部5から外部に送信してもよい。
一方、制御部1は、ステップS11において環境ノイズのレベルが所定の閾値以上であると判定した場合には、ステップS12において、収音範囲を狭くして、所定のビーム方向に設定した状態で音声記録を開始する。例えば、ビーム方向としては、図4の角度θの方向をビーム方向としてもよい。
図12Dは狭い収音範囲で収音する状態を示しており、収音範囲Dn1は十分に狭く、収音範囲Dn1以外の方向に存在するノイズ源の影響を抑制した録音が可能である。この場合においても、収音部2は、ユーザ81の音声を取得し、マイク2a1,2a2によって取得されたままの音声データ、指向性制御部2bによる指向性制御後の音声データを得る。ステップS13では、NR部2cは、ノイズを予測しノイズの判定結果を得る。制御部1は、NR部2cにおけるノイズの判定結果をノイズ情報としてノイズ情報記録部11に記録する。
なお、ノイズ情報は、指向性が変化する毎に記録される。或いは、制御部1は、収音期間におけるノイズ情報、即ち、収音開始からの各時間において、NR部2のノイズ判定結果をノイズ情報として順次求める。
NR部2cは、ノイズの判定結果を用いて音声信号からノイズをキャンセルし(ステップS14)、ノイズキャンセル後の音声データを制御部1に出力する。なお、制御部1は、NR部2cのノイズリダクション処理に関するNR情報についても、ノイズ情報記録部11に記録する。
制御部1は、収音部2からの各種音声データをそのまま、或いは音質調整部7によって音質調整した後、通信部5を介して外部に送信し、ディクテーション装置20において記録させる(ステップS15)。また、制御部1は、指向性情報、NR情報、フィルタ情報記録部9に記録されているフィルタ情報についても通信部5から外部に送信してもよい。
制御部1は、ステップS16において、環境ノイズのレベルが録音開始時に比べて大きくなったか否かを判定する。なお、制御部1は、ステップS16において、音声データ中の声の成分のレベルが録音開始時よりも小さくなったか否かを判定してもよい。録音時には、ユーザ81が収音装置10の筐体10aを手に把持した状態で発話するようになっており、録音途中において筐体10aの姿勢が変化して、収音範囲が変わってしまうことがある。例えば図12Eに示すように、筐体10aの姿勢が変化してマイク部2aの収音範囲がDn1からDn2に変化し、その結果収音範囲Dn2の方向にノイズ源となる空調装置85が位置するようになることがある。そうすると、空調装置85の影響によって、環境ノイズのレベルが大きくなり、音声認識性能が低下することが考えられる。
制御部1は、環境ノイズのレベルが大きくなったものと判定すると、ステップS17に処理を移行して、指向性を調整する。即ち、ノイズ情報記録部11に記録されているノイズ分布情報によって示されるノイズ源の位置と姿勢判定部4からの姿勢情報とに基づいて、ノイズ源の方向が収音範囲に含まれなくなるように、指向性制御部2bによる指向性制御を行う。これにより、環境ノイズのレベルは小さくなって、音声認識性能を向上させることができる。なお、制御部1は、姿勢判定部4の姿勢情報のみに基づいて、マイク部2aの収音範囲を録音開始時に一致させるように指向性制御を行うようになっていてもよい。制御部1は、ステップS17において指向性を調整した後、処理をステップS13に戻して、録音を継続する。
つまり、このような工夫によって、複数のマイクロホンにより構成された収音部の指向性を制御する指向性制御部によって指向性を変更しながら、ディクテーションにおけるノイズを判定し、このノイズが所定のレベル(所定の基準値)よりも大きい場合には、指向性制御部によって収音部の収音範囲を第1の範囲よりも狭い第2の範囲に設定した状態で収音方向を変化させて、良好なディクテーション音声を得ることが可能となる。つまり、収音時の有効範囲を制限することで、ディクテーション用の音声と環境ノイズとのS/N比を向上させることが可能となる。ここでは、一般化して、ノイズレベルと書いたが、これは、例えば、音響学者が提案するNC(Noise Criteria)値といった、オフィス内騒音の実験に基づく指標を利用した値、広帯域スペクトルを持つ定常騒音で空調などを判定する値を用いて数値レベル化する。例えば電話の声が聞き取れるレベルとされるNC−40などを基準値にして、音圧レベルで騒音を判定してもよい。電話で聞き取れるレベルとマイクで聞き取れるレベルが同様とした設計の場合、このような設定で良い。もちろん、NC−40のみを基準値にする必要はなく、各音圧、各周波数に応じたアナログ的な判定でもよい。また、これは、指向性によって切り替えても良い。また、マイクのダイナミックレンジの何分の1かを基準値とする設定の仕方、機器を利用する人の声が最大でどれくらいの音圧であるかなどを判定し、それによって決まる最大測定音圧と、そのときの環境ノイズをS/N比で判定した結果をノイズレベルと設定してもよい。つまり、最大限の声でディクテーションし、その音声がダイナミックレンジを越えないようなマイク感度、あるいは回路ゲインを設定し、そのときに、ディクテーションが可能な許されるノイズレベルに基づいて基準値を決定してもよい。このようにして、ディクテーションにおけるノイズの分布が判定できるので、これを判定する手段なり手順と前記ノイズの分布の情報を記録する手段なり手順があれば、前記収音部の姿勢の判定結果及び前記ノイズの分布の情報に基づいて、収音部のノイズのレベルを所定のレベル(これについては、すでに述べた通り、マイクのダイナミックレンジやNC値などを参考に設定し、指向性によって、あるいは、マイクの性能に、または発話者の声を判定するための周波数域によって変更してもよい)よりも小さくするように前記指向性制御部に前記収音部の収音方向を制御させながら収音を行う手順を設けることよって、これを反映した指向性などの制御を行い、極めて信頼性の高いディクテーション用の声の収音が可能となる。つまり、指向性を変える事によって、ディクテーション音声と環境ノイズの音圧などの比率(S/N比)の向上や、環境ノイズの観測値の減少となるような指向性の切換等を行えば良い。
つまり、このような工夫によって、複数のマイクロホンにより構成された収音部の指向性を制御する指向性制御部によって指向性を変更しながら、ディクテーションにおけるノイズを判定し、このノイズが所定のレベル(所定の基準値)よりも大きい場合には、指向性制御部によって収音部の収音範囲を第1の範囲よりも狭い第2の範囲に設定した状態で収音方向を変化させて、良好なディクテーション音声を得ることが可能となる。つまり、収音時の有効範囲を制限することで、ディクテーション用の音声と環境ノイズとのS/N比を向上させることが可能となる。ここでは、一般化して、ノイズレベルと書いたが、これは、例えば、音響学者が提案するNC(Noise Criteria)値といった、オフィス内騒音の実験に基づく指標を利用した値、広帯域スペクトルを持つ定常騒音で空調などを判定する値を用いて数値レベル化する。例えば電話の声が聞き取れるレベルとされるNC−40などを基準値にして、音圧レベルで騒音を判定してもよい。電話で聞き取れるレベルとマイクで聞き取れるレベルが同様とした設計の場合、このような設定で良い。もちろん、NC−40のみを基準値にする必要はなく、各音圧、各周波数に応じたアナログ的な判定でもよい。また、これは、指向性によって切り替えても良い。また、マイクのダイナミックレンジの何分の1かを基準値とする設定の仕方、機器を利用する人の声が最大でどれくらいの音圧であるかなどを判定し、それによって決まる最大測定音圧と、そのときの環境ノイズをS/N比で判定した結果をノイズレベルと設定してもよい。つまり、最大限の声でディクテーションし、その音声がダイナミックレンジを越えないようなマイク感度、あるいは回路ゲインを設定し、そのときに、ディクテーションが可能な許されるノイズレベルに基づいて基準値を決定してもよい。このようにして、ディクテーションにおけるノイズの分布が判定できるので、これを判定する手段なり手順と前記ノイズの分布の情報を記録する手段なり手順があれば、前記収音部の姿勢の判定結果及び前記ノイズの分布の情報に基づいて、収音部のノイズのレベルを所定のレベル(これについては、すでに述べた通り、マイクのダイナミックレンジやNC値などを参考に設定し、指向性によって、あるいは、マイクの性能に、または発話者の声を判定するための周波数域によって変更してもよい)よりも小さくするように前記指向性制御部に前記収音部の収音方向を制御させながら収音を行う手順を設けることよって、これを反映した指向性などの制御を行い、極めて信頼性の高いディクテーション用の声の収音が可能となる。つまり、指向性を変える事によって、ディクテーション音声と環境ノイズの音圧などの比率(S/N比)の向上や、環境ノイズの観測値の減少となるような指向性の切換等を行えば良い。
制御部1は、ステップS18において、録音終了操作が行われたか否かを判定する。録音終了操作が行われていない場合には、制御部1は処理をステップS11に戻す。制御部1は、録音終了操作が行われたことを検出すると、ステップS19において音声ファイル化を指示する。即ち、通信部5によって録音の終了がディクテーション装置20に伝達され、ディクテーション装置20は、受信した音声データをファイル化する。また、ディクテーション装置は、マイク特性やノイズ情報等の記録を行ってもよい。
図13は収音装置10からの送信データによって生成可能な音声ファイルの構成の一例を示す説明図である。
図13の例では、音声ファイルは、ファイル名、主音声データ、副音声データ、ノイズリダクション後の音声データ(NR)を含み、更に補助データとして、日時の情報、修復情報、マイク特性の情報、NR情報、指向性情報、指向性別のノイズ情報を含む。なお、主音声データ、副音声データは指向性制御後の音声データであるが、音声ファイルに指向性制御を行っていないマイク2a1,2a2からの2つの音声データを含めてもよい。
なお、図9では、ディクテーションのための録音に際して、環境ノイズに応じて指向特性を調整するようになっているが、ユーザが設定した指向特性の状態で録音を行うようになっていてもよい。
(ディクテーション)
図14は図2のディクテーション装置20によって実行されるディクテーション処理を示している。なお、図14の処理は図示しないクラウド上のコンピュータ等によって実行することも可能である。ディクテーション装置20の記録部24には、図13に示す各データだけでなく、指向性制御を行っていないマイク2a1,2a2からの2つの音声データを含む音声ファイルが記録されているものとする。
図14は図2のディクテーション装置20によって実行されるディクテーション処理を示している。なお、図14の処理は図示しないクラウド上のコンピュータ等によって実行することも可能である。ディクテーション装置20の記録部24には、図13に示す各データだけでなく、指向性制御を行っていないマイク2a1,2a2からの2つの音声データを含む音声ファイルが記録されているものとする。
制御部21は、ステップS31において、記録部24にディクテーションの対象となる音声ファイルが取得されているか否かを判定する。取得されていない場合には、制御部21はステップS32において取得の待機状態となる。ディクテーション対象となる音声ファイルが取得されると、制御部21は、記録部24からのノイズリダクション後の音声データ(NR音声)を再生する(ステップS33)。制御部21は、ステップS34において、テキスト化部23を制御して、音声でデータを文字化する。次に、ドキュメント化部21cは、ステップS35において、文字化したテキストが、生成しようとするドキュメントの項目及びその内容として判定できるものであるか否かを判定する。判定できる場合には、ドキュメント化部21cは、ステップS36においてテキスト化した音声をドキュメント化する(ステップS36)。制御部21は、ステップS37においてドキュメント化が終了したか否かを判定し、終了していない場合には処理をステップS33に戻し、終了した場合にはステップS38において生成したドキュメントを記録部24に記録する。
一方、ステップS35におけるドキュメント化部21cの判定によって、文字化したテキストがドキュメントの生成に利用できないものと判定された場合には、制御部21は、ステップS41〜S47において、ノイズリダクション処理をやり直してドキュメント化を試みる。ノイズリダクション処理においては、ノイズ成分だけでなく音声成分も除去される可能性がある。そこで、制御部21は、ノイズリダクション処理前の情報を生成するために、ノイズ情報が記録されているか否かを判定する(ステップS41)。図9のステップS13において取得されたノイズ情報がディクテーション装置20に転送されて記録部24に記録されている場合には、音声処理部21bは、ステップS42において、各時間の音声信号にノイズ情報によって得られるノイズを順次付加して、ノイズリダクション処理前の音声信号に戻した後、音声認識を再度実行する。次に、テキスト化部23及びドキュメント化部21cは、ステップS45〜ステップS47においてドキュメント化を試みた後ステップS37に移行する。なお、ステップS45〜ステップS47の処理は夫々ステップS34〜S36と同一の処理である。
また、制御部21は、ステップS41においてノイズ情報が記録されていないと判定した場合には、ステップS43において、ノイズリダクション処理前の主音声データ及び副音声データが記録部24に記録されているか否かを判定する。これらのデータが記録されている場合には、音声処理部21bは、主音声データ及び副音声データを用いてノイズリダクション処理を実行して、ノイズを除去する。次に、テキスト化部23及びドキュメント化部21cは、ステップS45〜ステップS47においてドキュメント化を試みた後ステップS37に移行する。
なお、制御部21は、ステップS41,S46において、文字化したテキストがドキュメントの生成に利用できないものと判定した場合には、ドキュメントを生成することなくステップS37に処理を移行する。
このように本実施の形態においては、収音装置によってディクテーションのための収音を行う場合には、環境ノイズのレベルを判定してその結果をユーザに提示するようになっている。これにより、ユーザは、例えばディクテーションに必要な音声認識性能が得られるか否かを、ディクテーション作業の前に事前に確認することができ、無駄な発話を防止することができる。また、ノイズ源の方向を特定して提示することができることから、ディクテーションのために必要な環境の改善についての知識を得ることも可能である。また、ノイズ源の分布の情報を保持して、ノイズが低減されるように或いは対象となる音声のレベルが大きくなるように収音範囲を制御することができ、音声認識性能を向上させることも可能である。更に、本実施の形態における収音装置は、取得した音声にノイズリダクション処理を施した後出力することが可能であると共に、ノイズリダクション後の音声信号だけでなくノイズリダクション前の音声信号及びノイズ情報についても出力することが可能である。これにより、ディクテーション処理を実行する装置において、ノイズリダクション処理後の音声に対する音声認識処理では認識精度が低い場合には、ノイズリダクション処理前の音声信号及びノイズ情報を用いて、新たにノイズリダクション処理や音声認識処理を行うことで認識精度を向上させることができることがあるという利点がある。
ここでは、一般化して、ノイズレベルと書いたが、これは、例えば、音響学者が提案するNC(Noise Criteria)値といった、オフィス内騒音の実験に基づく指標を利用した値でもよい。つまり、ここでのNC−40などを基準値にして、音圧レベルで騒音を判定してもよい。これは、広帯域スペクトルを持つ定常騒音で空調などが判定できる。もちろん、NC−40のみを基準値にする必要はなく、各音圧、各周波数に応じたアナログ的な判定でもよい。また、これは、指向性によって切り替えても良い。また、マイクのダイナミックレンジの何分の1かを基準値とする設定の仕方、機器を利用する人の声が最大でどれくらいの音圧であるかなどを判定し、それによって決まる最大測定音圧と、そのときの環境ノイズをS/N比で判定した結果をノイズレベルと設定してもよい。
ここでは、一般化して、ノイズレベルと書いたが、これは、例えば、音響学者が提案するNC(Noise Criteria)値といった、オフィス内騒音の実験に基づく指標を利用した値でもよい。つまり、ここでのNC−40などを基準値にして、音圧レベルで騒音を判定してもよい。これは、広帯域スペクトルを持つ定常騒音で空調などが判定できる。もちろん、NC−40のみを基準値にする必要はなく、各音圧、各周波数に応じたアナログ的な判定でもよい。また、これは、指向性によって切り替えても良い。また、マイクのダイナミックレンジの何分の1かを基準値とする設定の仕方、機器を利用する人の声が最大でどれくらいの音圧であるかなどを判定し、それによって決まる最大測定音圧と、そのときの環境ノイズをS/N比で判定した結果をノイズレベルと設定してもよい。
本発明は、上記実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。
なお、特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。また、これらの動作フローを構成する各ステップは、発明の本質に影響しない部分については、適宜省略も可能であることは言うまでもない。
なお、ここで説明した技術のうち、主にフローチャートで説明した制御に関しては、プログラムで設定可能であることが多く、半導体やその他の記録媒体や記録部に収められる場合もある。この記録媒体、記録部への記録の仕方は、製品出荷時に記録してもよく、配布された記録媒体を利用してもよく、インターネットを介してダウンロードしたものでもよい。また、外部の機器が必要に応じて連携し、いくつかの機能や判断の代役を果たしてもよい。
[付記項1]
マイクロホンにより構成された収音部によって音を収音する手順と、
複数のマイクロホンにより構成された前記収音部の指向性を制御する指向性制御部によって前記収音部の収音範囲を第1の範囲に設定した状態でディクテーションにおけるノイズを判定する手順と、
指向性制御部によって前記収音部の収音範囲を前記第1の範囲よりも狭い第2の範囲に設定した状態で前記ディクテーションのための収音を行う手順と
を具備したことを特徴とする収音方法。
マイクロホンにより構成された収音部によって音を収音する手順と、
複数のマイクロホンにより構成された前記収音部の指向性を制御する指向性制御部によって前記収音部の収音範囲を第1の範囲に設定した状態でディクテーションにおけるノイズを判定する手順と、
指向性制御部によって前記収音部の収音範囲を前記第1の範囲よりも狭い第2の範囲に設定した状態で前記ディクテーションのための収音を行う手順と
を具備したことを特徴とする収音方法。
[付記項2]
マイクロホンにより構成された収音部によって音を収音する手順と、
複数のマイクロホンにより構成された前記収音部の指向性を制御する指向性制御部によって前記収音部の収音範囲を第1の範囲に設定した状態でディクテーションにおけるノイズを判定する手順と、
前記ディクテーションにおけるノイズが所定のレベルよりも大きい場合には、前記指向性制御部によって前記収音部の収音範囲を前記第1の範囲よりも狭い第2の範囲に設定した状態で上記ディクテーション用の収音を行う手順と
を具備したことを特徴とする収音方法。
マイクロホンにより構成された収音部によって音を収音する手順と、
複数のマイクロホンにより構成された前記収音部の指向性を制御する指向性制御部によって前記収音部の収音範囲を第1の範囲に設定した状態でディクテーションにおけるノイズを判定する手順と、
前記ディクテーションにおけるノイズが所定のレベルよりも大きい場合には、前記指向性制御部によって前記収音部の収音範囲を前記第1の範囲よりも狭い第2の範囲に設定した状態で上記ディクテーション用の収音を行う手順と
を具備したことを特徴とする収音方法。
[付記項3]
付記項2において、
収音方向を変化させながら前記ディクテーションにおけるノイズの分布を判定する手順と、
前記ノイズの分布の情報を記録する手順と、
前記収音部の姿勢の判定結果及び前記ノイズの分布の情報に基づいて、収音部のノイズのレベルを所定のレベルよりも小さくするように前記指向性制御部に前記収音部の収音方向を制御させながら収音を行う手順と
を具備したことを特徴とする収音方法。
付記項2において、
収音方向を変化させながら前記ディクテーションにおけるノイズの分布を判定する手順と、
前記ノイズの分布の情報を記録する手順と、
前記収音部の姿勢の判定結果及び前記ノイズの分布の情報に基づいて、収音部のノイズのレベルを所定のレベルよりも小さくするように前記指向性制御部に前記収音部の収音方向を制御させながら収音を行う手順と
を具備したことを特徴とする収音方法。
1制御部、1a…提示制御部、1b…トラック入力部、2…収音部、2a…マイク部、2b…指向性制御部、2c…NR部、2d…ノイズ判定部、3…操作部、4…姿勢判定部、5…通信部、6…提示部、7…音質調整部、8…時計部、9…フィルタ情報記録部、10…収音装置、11…ノイズ情報記録部。
Claims (11)
- 音を収音するマイクロホンにより構成された収音部と、
前記収音部において収音された音声に基づいてディクテーションにおけるノイズを判定するノイズ判定部と、
前記ノイズ判定部の判定結果に基づく提示を行う提示部と
を具備したことを特徴とする収音装置。 - 前記収音部は、複数のマイクロホンにより構成され、
前記複数のマイクロホンによる前記収音部の指向性を制御する指向性制御部を具備し、
前記ノイズ判定部は、前記指向性制御部によって前記収音部の指向性を変更させながら前記ディクテーションにおけるノイズの分布を判定する
ことを特徴とする請求項1に記載の収音装置。 - 前記ノイズ判定部によって判定された前記ノイズの分布の情報を記録するノイズ情報記録部
を具備したことを特徴とする請求項2に記載の収音装置。 - 前記収音部の姿勢を判定する姿勢判定部と、
前記姿勢判定部の判定結果及び前記ノイズの分布の情報に基づいて、収音時のノイズのレベルを小さくするように前記指向性制御部に前記収音部の指向性を制御させる制御部と
を具備したことを特徴とする請求項3に記載の収音装置。 - 前記収音部によって収音された音声からノイズ成分を除去するノイズリダクション処理を実行するノイズリダクション部と、
前記収音部によって収音された音声及び前記ノイズリダクション部によってノイズリダクション処理された音声を外部に送信する通信部と
を具備したことを特徴とする請求項1に記載の収音装置。 - 前記収音部によって収音された音声からノイズ成分を除去するノイズリダクション処理を実行するノイズリダクション部と、
前記収音部によって収音された音声、前記ノイズリダクション部によってノイズリダクション処理された音声及び前記収音部の収音期間におけるノイズの情報を外部に送信する通信部と
を具備したことを特徴とする請求項3に記載の収音装置。 - マイクロホンにより構成された収音部によって音を収音する手順と、
前記収音部において収音された音声に基づいてディクテーションにおけるノイズを判定する手順と、
前記ノイズの判定結果に基づく提示を行う提示手順と
を具備したことを特徴とする収音方法。 - 前記ディクテーションにおけるノイズを判定する手順は、複数のマイクロホンにより構成された前記収音部の指向性を制御する指向性制御部によって前記収音部の収音範囲を第1の範囲に設定した状態で行い、
指向性制御部によって前記収音部の収音範囲を前記第1の範囲よりも狭い第2の範囲に設定した状態で前記ディクテーションのための収音を行う手順
を具備したことを特徴とする請求項7に記載の収音方法。 - 前記ディクテーションにおけるノイズを判定する手順は、複数のマイクロホンにより構成された前記収音部の指向性を制御する指向性制御部によって前記収音部の収音範囲を第1の範囲に設定した状態で行い、
前記ディクテーションにおけるノイズが所定のレベルよりも大きい場合には、前記指向性制御部によって前記収音部の収音範囲を前記第1の範囲よりも狭い第2の範囲に設定した状態で収音方向を変化させながら前記ディクテーションにおけるノイズの分布を判定する手順と、
前記ノイズの分布の情報を記録する手順と、
前記収音部の姿勢の判定結果及び前記ノイズの分布の情報に基づいて、前記収音部のノイズのレベルを所定のレベルよりも小さくするように前記指向性制御部に前記収音部の収音方向を制御させながら収音を行う手順と
を具備したことを特徴とする請求項7に記載の収音方法。 - コンピュータに、
マイクロホンにより構成された収音部によって音を収音する手順と、
前記収音部において収音された音声に基づいてディクテーションにおけるノイズを判定する手順と、
前記ノイズの判定結果に基づく提示を行う提示手順と
を実行させるための収音プログラム。 - 収音部によって収音された第1の音声、前記収音された第1の音声に対するノイズリダクション処理によって取得された第2の音声及び前記収音部の収音期間におけるノイズの情報が記録された記録部から、前記第2の音声を読み出して読み出した前記第2の音声に対する音声認識によって第1のディクテーション処理を行ってドキュメントを生成する手順と、
前記第1のディクテーション処理によって前記ドキュメントを生成することができない場合には、前記第2の音声及び前記ノイズの情報を読み出して読み出した前記第2の音声に前記ノイズの情報に基づくノイズを付加して得た第3の音声に対する音声認識によって第2のディクテーション処理を行ってドキュメントを生成する手順と、
前記第2のディクテーション処理によって前記ドキュメントを生成することができない場合には、読み出した前記第1の音声に対してノイズリダクション処理を行って得た第4の音声に対する音声認識によって第3のディクテーション処理を行ってドキュメントを生成する手順と
を具備したことを特徴とするディクテーション方法。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017092209A JP2018191145A (ja) | 2017-05-08 | 2017-05-08 | 収音装置、収音方法、収音プログラム及びディクテーション方法 |
| US15/969,020 US10783903B2 (en) | 2017-05-08 | 2018-05-02 | Sound collection apparatus, sound collection method, recording medium recording sound collection program, and dictation method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017092209A JP2018191145A (ja) | 2017-05-08 | 2017-05-08 | 収音装置、収音方法、収音プログラム及びディクテーション方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2018191145A true JP2018191145A (ja) | 2018-11-29 |
Family
ID=64014903
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017092209A Pending JP2018191145A (ja) | 2017-05-08 | 2017-05-08 | 収音装置、収音方法、収音プログラム及びディクテーション方法 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US10783903B2 (ja) |
| JP (1) | JP2018191145A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2023074655A1 (ja) * | 2021-10-27 | 2023-05-04 | パイオニア株式会社 | 情報処理装置、情報処理方法、プログラムおよび記録媒体 |
| JPWO2023074654A1 (ja) * | 2021-10-27 | 2023-05-04 |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10943598B2 (en) | 2019-03-18 | 2021-03-09 | Rovi Guides, Inc. | Method and apparatus for determining periods of excessive noise for receiving smart speaker voice commands |
| CN110459236B (zh) | 2019-08-15 | 2021-11-30 | 北京小米移动软件有限公司 | 音频信号的噪声估计方法、装置及存储介质 |
| CN110827799B (zh) * | 2019-11-21 | 2022-06-10 | 百度在线网络技术(北京)有限公司 | 用于处理语音信号的方法、装置、设备和介质 |
| CN117711435B (zh) * | 2023-12-20 | 2025-02-25 | 书行科技(北京)有限公司 | 音频处理方法及装置、电子设备及计算机可读存储介质 |
Family Cites Families (34)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5220639A (en) * | 1989-12-01 | 1993-06-15 | National Science Council | Mandarin speech input method for Chinese computers and a mandarin speech recognition machine |
| US5787230A (en) * | 1994-12-09 | 1998-07-28 | Lee; Lin-Shan | System and method of intelligent Mandarin speech input for Chinese computers |
| US6405170B1 (en) * | 1998-09-22 | 2002-06-11 | Speechworks International, Inc. | Method and system of reviewing the behavior of an interactive speech recognition application |
| JP3632462B2 (ja) | 1998-09-29 | 2005-03-23 | ブラザー工業株式会社 | 音声応答機能付電話装置 |
| JP2000244609A (ja) | 1999-02-23 | 2000-09-08 | Omron Corp | 話者状況適応型音声対話装置及び発券装置 |
| US6834264B2 (en) * | 2001-03-29 | 2004-12-21 | Provox Technologies Corporation | Method and apparatus for voice dictation and document production |
| US7092529B2 (en) * | 2002-11-01 | 2006-08-15 | Nanyang Technological University | Adaptive control system for noise cancellation |
| US20050125224A1 (en) * | 2003-11-06 | 2005-06-09 | Myers Gregory K. | Method and apparatus for fusion of recognition results from multiple types of data sources |
| DE602004017603D1 (de) * | 2004-09-03 | 2008-12-18 | Harman Becker Automotive Sys | Sprachsignalverarbeitung für die gemeinsame adaptive Reduktion von Störgeräuschen und von akustischen Echos |
| US8068619B2 (en) * | 2006-05-09 | 2011-11-29 | Fortemedia, Inc. | Method and apparatus for noise suppression in a small array microphone system |
| KR100834679B1 (ko) * | 2006-10-31 | 2008-06-02 | 삼성전자주식회사 | 음성 인식 오류 통보 장치 및 방법 |
| US8831183B2 (en) * | 2006-12-22 | 2014-09-09 | Genesys Telecommunications Laboratories, Inc | Method for selecting interactive voice response modes using human voice detection analysis |
| US9973450B2 (en) * | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
| US8954324B2 (en) * | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
| US8223988B2 (en) * | 2008-01-29 | 2012-07-17 | Qualcomm Incorporated | Enhanced blind source separation algorithm for highly correlated mixtures |
| US8724829B2 (en) * | 2008-10-24 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coherence detection |
| US8930179B2 (en) * | 2009-06-04 | 2015-01-06 | Microsoft Corporation | Recognition using re-recognition and statistical classification |
| KR20110010939A (ko) * | 2009-07-27 | 2011-02-08 | 삼성전자주식회사 | 휴대용 단말기에서 음성 인식 성능을 향상시키기 위한 장치 및 방법 |
| US9305563B2 (en) * | 2010-01-15 | 2016-04-05 | Lg Electronics Inc. | Method and apparatus for processing an audio signal |
| US8924204B2 (en) * | 2010-11-12 | 2014-12-30 | Broadcom Corporation | Method and apparatus for wind noise detection and suppression using multiple microphones |
| US20120166188A1 (en) * | 2010-12-28 | 2012-06-28 | International Business Machines Corporation | Selective noise filtering on voice communications |
| US20130282370A1 (en) * | 2011-01-13 | 2013-10-24 | Nec Corporation | Speech processing apparatus, control method thereof, storage medium storing control program thereof, and vehicle, information processing apparatus, and information processing system including the speech processing apparatus |
| US9076450B1 (en) * | 2012-09-21 | 2015-07-07 | Amazon Technologies, Inc. | Directed audio for speech recognition |
| CN104464739B (zh) * | 2013-09-18 | 2017-08-11 | 华为技术有限公司 | 音频信号处理方法及装置、差分波束形成方法及装置 |
| KR101990370B1 (ko) * | 2014-11-26 | 2019-06-18 | 한화테크윈 주식회사 | 카메라 시스템 및 카메라 시스템 동작 방법 |
| JP6738342B2 (ja) * | 2015-02-13 | 2020-08-12 | ヌープル, インコーポレーテッドNoopl, Inc. | 聴力を改善するためのシステムおよび方法 |
| US20160249132A1 (en) * | 2015-02-23 | 2016-08-25 | Invensense, Inc. | Sound source localization using sensor fusion |
| US9734822B1 (en) * | 2015-06-01 | 2017-08-15 | Amazon Technologies, Inc. | Feedback based beamformed signal selection |
| US10339921B2 (en) * | 2015-09-24 | 2019-07-02 | Google Llc | Multichannel raw-waveform neural networks |
| US9805714B2 (en) * | 2016-03-22 | 2017-10-31 | Asustek Computer Inc. | Directional keyword verification method applicable to electronic device and electronic device using the same |
| US10482899B2 (en) * | 2016-08-01 | 2019-11-19 | Apple Inc. | Coordination of beamformers for noise estimation and noise suppression |
| US9741360B1 (en) * | 2016-10-09 | 2017-08-22 | Spectimbre Inc. | Speech enhancement for target speakers |
| KR20180111271A (ko) * | 2017-03-31 | 2018-10-11 | 삼성전자주식회사 | 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치 |
| US9966059B1 (en) * | 2017-09-06 | 2018-05-08 | Amazon Technologies, Inc. | Reconfigurale fixed beam former using given microphone array |
-
2017
- 2017-05-08 JP JP2017092209A patent/JP2018191145A/ja active Pending
-
2018
- 2018-05-02 US US15/969,020 patent/US10783903B2/en not_active Expired - Fee Related
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2023074655A1 (ja) * | 2021-10-27 | 2023-05-04 | パイオニア株式会社 | 情報処理装置、情報処理方法、プログラムおよび記録媒体 |
| JPWO2023074654A1 (ja) * | 2021-10-27 | 2023-05-04 | ||
| WO2023074654A1 (ja) * | 2021-10-27 | 2023-05-04 | パイオニア株式会社 | 情報処理装置、情報処理方法、プログラムおよび記録媒体 |
| JP7724305B2 (ja) | 2021-10-27 | 2025-08-15 | パイオニア株式会社 | 情報処理装置、情報処理方法、プログラムおよび記録媒体 |
Also Published As
| Publication number | Publication date |
|---|---|
| US20180322896A1 (en) | 2018-11-08 |
| US10783903B2 (en) | 2020-09-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12028685B2 (en) | Hearing aid system for estimating acoustic transfer functions | |
| JP2018191145A (ja) | 収音装置、収音方法、収音プログラム及びディクテーション方法 | |
| KR102350890B1 (ko) | 휴대용 청력검사장치 | |
| JP5493611B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
| CN102138337A (zh) | 具有自包含的语音反馈和语音命令的佩戴型头戴式耳机 | |
| CN108538320A (zh) | 录音控制方法和装置、可读存储介质、终端 | |
| JP2014174255A (ja) | 信号処理装置、信号処理方法及び記憶媒体 | |
| US10607625B2 (en) | Estimating a voice signal heard by a user | |
| JP2009178783A (ja) | コミュニケーションロボット及びその制御方法 | |
| CN113539282A (zh) | 声音处理装置、系统和方法 | |
| WO2019228329A1 (zh) | 个人听力装置、外部声音处理装置及相关计算机程序产品 | |
| JP7734346B2 (ja) | 耳装着型デバイス、及び、再生方法 | |
| US9355648B2 (en) | Voice input/output device, method and programme for preventing howling | |
| GB2526980A (en) | Sensor input recognition | |
| CN119836657A (zh) | 基于输入话音特性的源话音修改 | |
| JP2004279768A (ja) | 気導音推定装置及び気導音推定方法 | |
| JP7284570B2 (ja) | 音声再生システムおよびプログラム | |
| JP2018191234A (ja) | 音声取得機器、音声取得方法、および音声取得用プログラム | |
| GB2553040A (en) | Sensor input recognition | |
| CN113409809A (zh) | 语音降噪方法、装置及设备 | |
| JP2022106109A (ja) | 音声認識装置、音声処理装置および方法、音声処理プログラム、撮像装置 | |
| CN116506760B (zh) | 一种耳机记忆控制方法、装置、电子设备及存储介质 | |
| US20250285611A1 (en) | Conversation support device, conversation support system, conversation support method, and storage medium | |
| US20250048041A1 (en) | Processing audio signals from unknown entities | |
| JP3227725U (ja) | 文字表示機能付き補聴システム |