JP2018191145A

JP2018191145A - 収音装置、収音方法、収音プログラム及びディクテーション方法

Info

Publication number: JP2018191145A
Application number: JP2017092209A
Authority: JP
Inventors: 一崇田中; Kazutaka Tanaka; 和彦長; Kazuhiko Cho; 野中　修; Osamu Nonaka; 修野中
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2017-05-08
Filing date: 2017-05-08
Publication date: 2018-11-29
Also published as: US20180322896A1; US10783903B2

Abstract

【課題】ディクテーションのための収音に際して、環境ノイズを示す提示を行うことにより、結果的にディクテーション作業を効率化する。
【解決手段】収音装置は、音を収音するマイクロホンにより構成された収音部と、前記収音部において収音された音声に基づいてディクテーションにおけるノイズを判定するノイズ判定部と、前記ノイズ判定部の判定結果に基づく提示を行う提示部とを具備することにより、ディクテーションのための収音に際して、環境ノイズを示す提示を行うことにより、結果的にディクテーション作業を効率化する。
【選択図】図１

Description

本発明は、ディクテーションに有効な収音装置、収音方法、収音プログラム及びディクテーション方法に関する。

従来、収音装置に採用されるマイクロホンとしては、利用目的に応じて多種多様のものが開発されている。例えば、収音装置として、複数のマイクロホンを用いることで、高い感度が得られる方向を切換えることが可能な指向性切換え機能を有する装置も開発されている。例えば、ユーザが指向性を切換えて、いずれの方向の感度を高くするかを指定することで、ユーザがマイクロホンの向きを変えることなく、所望の方向の感度を高くすることが可能である。

収音装置は、拡声のため、人同士の会話のため、人と機械との会話のため等の種々の目的に用いられる。特許文献１においては、ファジィ制御によって話者のまわりの雑音レベルを検出し、これに基づいて出力音声の音量を制御する技術が開示されている。また、特許文献２には、ハンズフリー通話に際して、周囲の雑音による音声応答機能の誤作動を良好に防止可能な音声応答機能付電話装置が開示されている。

また、このような収音装置は、ディクテーションシステムにも利用される。近年、音声認識技術の進歩に伴い、音声入力によってテキストを生成するディクテーションシステムを搭載した機器が商品化されている。ディクテーションシステムでは、従来キーボード等を利用して入力していたテキストを音声によって入力する。

ディクテーションシステムは、パーソナルコンピュータ上での口述筆記の自動化や携帯端末におけるメール文章の入力等、様々な分野で利用される。例えば、医療分野においては、カルテ作成等の利用方法も考えられる。医師にとっては、様々な医療器具や情報端末の取り扱いや、患者への接触のために必要な時間を確保する必要があり、カルテを短時間に作成できるディクテーションシステムは極めて有用である。

特開２０００−２４４６０９号公報特開２０００−１０６５９２号公報

ところで、音声認識処理は、マイクロホンによって入力音声を取込み、取込んだ入力音声から音響特徴量を抽出し、抽出した特徴量と音響モデルとのマッチング演算によってテキストを求めるものである。従って、マイクロホンによって人の声のみが入力される場合には、比較的高い音声認識性能を得ることができる反面、ディクテーション対象の音声以外のノイズ成分が入力音声に含まれる場合には、音声認識性能が著しく低下する。

しかしながら、例えば医療現場においては、医師を含む多数の医療従事者が同一空間に存在する場合が多く、これらの医療従事者等の会話、空調設備や各種医療機器の動作音等の各種環境ノイズが発生する。特に、ディクテーション対象の音声の外に他人の音声が環境ノイズとして発生している場合には、対象音声に対する音声認識性能が低下し確実なディクテーションができなくなってしまうことがある。しかしながら、ディクテーションを行う人物は、環境ノイズの影響によりディクテーションが不能となるか否かを判断することはできず、無駄な発声を繰り返したりすることがあるという問題があった。

本発明は、ディクテーションのための収音に際して、環境ノイズを示す提示を行うことにより、結果的にディクテーション作業を効率化することができる収音装置、収音方法、収音プログラム及びディクテーション方法に関する。

本発明の一態様による収音装置は、音を収音するマイクロホンにより構成された収音部と、前記収音部において収音された音声に基づいてディクテーションにおけるノイズを判定するノイズ判定部と、前記ノイズ判定部の判定結果に基づく提示を行う提示部とを具備する。

また、本発明の一態様による収音方法は、マイクロホンにより構成された収音部によって音を収音する手順と、前記収音部において収音された音声に基づいてディクテーションにおけるノイズを判定する手順と、前記ノイズの判定結果に基づく提示を行う提示手順とを具備する。

また、本発明の一態様による収音プログラムは、コンピュータに、マイクロホンにより構成された収音部によって音を収音する手順と、前記収音部において収音された音声に基づいてディクテーションにおけるノイズを判定する手順と、前記ノイズの判定結果に基づく提示を行う提示手順とを実行させる。

また、本発明の一態様によるディクテーション方法は、収音部によって収音された第１の音声、前記収音された第１の音声に対するノイズリダクション処理によって取得された第２の音声及び前記収音部の収音期間におけるノイズの情報が記録された記録部から、前記第２の音声を読み出して読み出した前記第２の音声に対する音声認識によって第１のディクテーション処理を行ってドキュメントを生成する手順と、前記第１のディクテーション処理によって前記ドキュメントを生成することができない場合には、前記第２の音声及び前記ノイズの情報を読み出して読み出した前記第２の音声に前記ノイズの情報に基づくノイズを付加して得た第３の音声に対する音声認識によって第２のディクテーション処理を行ってドキュメントを生成する手順と、前記第２のディクテーション処理によって前記ドキュメントを生成することができない場合には、読み出した前記第１の音声に対してノイズリダクション処理を行って得た第４の音声に対する音声認識によって第３のディクテーション処理を行ってドキュメントを生成する手順とを具備する。

本発明によれば、ディクテーションのための収音に際して、環境ノイズを示す提示を行うことにより、結果的にディクテーション作業を効率化することができるという効果を有する。

本発明の第１の実施の形態に係る収音装置を示すブロック図。図１の収音装置からの音声ファイルを受信してディクテーションを行うディクテーション装置を示すブロック図。図１の収音装置からの音声ファイルを受信して、手入力によるディクテーションを行うための再生記録機器を示す説明図。図１及び図２の各部を有して構成されたディクテーション機能を有する収音装置（マイクロホン装置）の外観の一例を示す説明図。収音装置のマイクロホン（以下、マイクという）２ａ１，２ａ２によるマイク部２ａの構成を説明するための説明図。図１中の指向性制御部２ｂの具体的な構成の一例を示す回路図。図１中のＮＲ部２ｃの具体的な構成の一例を示す回路図。ドキュメント化部２１ｃによって生成されるドキュメントの一例を説明するための説明図。収音装置の動作を説明するためのフローチャート。環境ノイズ判定処理の具体的な手順の一例を示すフローチャート。提示制御部１ａによるＬＥＤの点灯制御を説明するための説明図。提示制御部１ａによるＬＥＤの点灯制御を説明するための説明図。実施の形態の動作を説明するための説明図。実施の形態の動作を説明するための説明図。実施の形態の動作を説明するための説明図。実施の形態の動作を説明するための説明図。実施の形態の動作を説明するための説明図。音声ファイルの構成の一例を示す説明図。ディクテーション装置の動作を説明するためのフローチャート。

以下、図面を参照して本発明の実施の形態について詳細に説明する。

（第１の実施の形態）
図１は本発明の第１の実施の形態に係る収音装置を示すブロック図である。また、図２は図１の収音装置からの音声ファイルを受信してディクテーションを行うディクテーション装置を示すブロック図であり、図３は図１の収音装置からの音声ファイルを受信して、手入力によるディクテーションを行うための再生記録機器を示す説明図である。

なお、本実施の形態においては、収音装置とディクテーション装置とが別体に構成された例を示しているが、図１及び図２の装置が一体化された装置を構成することも可能であり、例えば、図１及び図２の機能を有するＩＣレコーダを構成することもできる。また、図１の収音装置に図２のディクテーション機能を含めて構成することも可能であり、例えば、ディクテーション機能を有するマイクロホン装置を構成することも可能である。

図４は図１及び図２の各部を有して構成されたディクテーション機能を有する収音装置（マイクロホン装置）の外観の一例を示す説明図である。また、図５は収音装置のマイクロホン（以下、マイクという）２ａ１，２ａ２によるマイク部２ａの構成を説明するための説明図である。

本実施の形態は、例えば、ディクテーション作業に際して、発声前に音声認識性能の障害となる環境ノイズを検出し、検出結果を提示することで、ディクテーション作業者がディクテーション環境がどのような環境であるかを認識することを可能にするものである。例えば、ディクテーション作業者は、発声前にディクテーション可能な環境であるか否かを判断することもできる。また、本実施の形態は、環境ノイズの検出結果を利用して収音特性を変化させることで、音声認識性能を向上させることもできるようになっている。

先ず、図４及び図５を参照してマイク部２ａの構成について説明する。図４は収音装置１の筐体１０ａをユーザが左手５１Ｌで把持し、右手５１Ｒで操作している状態を、収音装置１の正面側から見て示したものである。また、図５は図４のＡ線において切断して収音装置１の内蔵物の配置の様子を左側方から見て模式的に示すものであり、ユーザが筐体１０ａの正面と背面を右手の親指５３Ｒと人差し指５４Ｒとによって把持している状態を示している。

筐体１０ａの正面の上端には筐体１０ａの長手方向に対して斜めに傾斜して配置されるフィルタ部４２が構成されている。フィルタ部４２は筐体１０ａの正面側上端に設けた開口部を閉塞するものであり、筐体１０ａの外部側から内部側に向かって、比較的荒いメッシュ状の金属部４２ａ、不織布４２ｂ及び比較的細かいメッシュ状の金属部４２ｃの３層構造を有する。フィルタ部４２は、口５２から発せられる音声のうちポップノイズを除去する。

筐体１０ａ内部の背面側には、フィルタ部４２に対向する位置に正面マイク２ａ１が配設されている。また、筐体１０ａ内部の背面側には、正面マイク２ａ１の下方に、背面マイク２ａ２を配置する収納部４４が設けられている。この収納部４４の上面と正面マイク２ａ１の底面との間にはゴム等の弾性部材４３ｂが配設され、正面マイク２ａ１の上面と筐体１０ａの上面との間にはゴム等の弾性部材４３ａが配設されている。弾性部材４３ａ，４３ｂによって、正面マイク２ａ１が筐体１０ａ内に保持されると共に、筐体１０ａに生じる振動のマイク２ａ１への影響が緩和される。特に、弾性部材４３ａ，４３ｂによって指５３Ｒ，５４Ｒからの振動の影響を緩和することができる。

収納部４４は筐体１０ａの背面に設けられた凹部により構成され、この凹部は多数の小孔を有する閉塞部材４６によって閉塞されている。収納部４４の凹部内に背面マイク２ａ２が配置される。マイク２ａ２の上面と凹部の上面との間にはウレタン等の弾性部材４５ａが配設され、マイク２ａ２の底面と凹部の底面との間にはウレタン等の弾性部材４５ｂが配設される。弾性部材４５ａ，４５ｂによって、マイク２ａ２が凹部内に保持される。

また、筐体１０ａ内部の下方側には、図１及び図２の各回路用の部品等が搭載された基板４７が配置される。

正面マイク２ａ１は、図５の破線の収音範囲Ｄ１で収音可能な指向特性を有し、背面マイク２ａ２は、図５の破線の収音範囲Ｄ２で収音可能な指向特性を有する。本実施の形態においては、後述するように、電気的な制御によって、正面マイク２ａ１及び背面マイク２ａ２によるマイク部２ａの全体的な指向特性を制御することができるようになっている。

なお、筐体１０ａの厚みをＺｍとし、正面マイク２ａ１とフィルタ部４２との水平方向の距離（マイク深さ）をＺｄとする。装置の薄型化を考慮すると、厚みＺｍはなるべく小さい方が良い。また、マイク深さＺｄは、収音時に気流の影響を受けて音声に歪が生じない程度の十分な距離に設定する。また、弾性部材４５ａ，４５ｂとして用いるクッション材と弾性部材４３ａ，４３ｂとして用いるクッション材とを異なる材料にすることにより、筐体１０ａ上面から収納部４４底面までの高さＹｍが大きくなり過ぎることを防止している。

図１において、収音装置１０には制御部１が設けられている。制御部１は、ＣＰＵ等を用いたプロセッサによって構成されて、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で一部を置き換えてもよい。

収音部２は、複数のマイクロホンを有するマイク部２ａを有している。図５の例ではマイク部２ａは、正面マイク２ａ１と背面マイク２ａ２の２つのマイクロホンによって構成される。マイク部２ａは、周囲の音を収音して収音音声を音声信号に変換して出力する。収音部２は指向性制御部２ｂを有しており、指向性制御部２ｂは、制御部１に制御されて、マイク部２ａの収音の指向性を制御する。即ち、指向性制御部２ｂは、マイク部２ａの収音に際して、最も感度が高くなる方向（以下、ビーム方向という）及び収音の範囲を制御することができるようになっている。

図６は図１中の指向性制御部２ｂの具体的な構成の一例を示す回路図である。

指向性制御部２ｂは、２つのマイク２ａ１，２ａ２からの出力をそれぞれデジタル信号に変換するＡＤ変換器（ＡＤＣ）６１ａ，６１ｂを有している。ＡＤＣ６１ａは、マイク２ａ１からの音声信号をデジタル信号に変換して加算器６２ａ，６３ａに出力する。また、ＡＤＣ６１ｂは、マイク２ａ２からの音声信号をデジタル信号に変換して加算器６２ｂ，６３ｂに出力する。

加算器６３ａは、ＡＤＣ６１ｂの出力からＡＤＣ６１ａの出力を減算して減算結果を乗算器６４ａに出力する。また、加算器６３ｂは、ＡＤＣ６１ａの出力からＡＤＣ６１ｂの出力を減算して減算結果を乗算器６４ｂに出力する。

乗算器６４ａ及び乗算器６４ｂの制御端には、制御部１からそれぞれ第１及び第２の乗算係数が供給される。乗算器６４ａは加算器６３ａの出力と第１の乗算係数との乗算を行って乗算結果を加算器６２ａに出力し、乗算器６４ｂは加算器６３ｂの出力と第２の乗算係数との乗算を行って乗算結果を加算器６２ｂに出力する。加算器６２ａは、ＡＤＣ６１ａの出力と乗算器６４ａの出力とを加算して加算結果を出力する。また、加算器６２ｂは、ＡＤＣ６１ｂの出力と乗算器６４ｂの出力とを加算して加算結果を出力する。

マイク２ａ１は、筐体１０ａの正面斜め上方からの音声に対して最も感度が高くなる指向特性を有する。以下、マイク２ａ１によって収音される音を主音声という。また、マイク２ａ２は、筐体１０ａ背面水平方向からの音声に対して最も感度が高くなる指向特性を有する。以下、マイク２ａ２によって収音される音を副音声という。

加算器６２ａの加算結果は、主音声と副音声とを第１の乗算係数に従った配分で加算した結果であり、この加算は、マイク２ａ１の収音範囲をマイク２ａ２の収音範囲側に第１の乗算係数に応じて広げたことに相当する。同様に、加算器６２ｂの加算結果は、副音声と主音声とを第２の乗算係数に従った配分で加算した結果であり、この加算は、マイク２ａ２の収音範囲をマイク２ａ１の収音範囲側に第２の乗算係数に応じて広げたことに相当する。

加算器６２ａ，６２ｂの出力は、それぞれ単独の音声データとして出力するようになっていてもよく、例えば、加算器６２ａの出力を主音声データとし、加算器６２ｂの出力を副音声データとして出力してもよい。また、加算器６２ａ，６２ｂの出力を合成して１つの音声データとして出力するようになっていてもよい。

このように収音部２は、マイク２ａ１，２ａ２からの主音声及び副音声のバランスを制御し、音声の指向性を狭くしたり、広くしたり、指向性を変えたりすることができる。即ち、加算器６２ａ、６２ｂから出力される各音声データは、正面側から背面側までの収音範囲の広がりを抑えた音声出力となる。乗算器６４ａ、６４ｂにおける第１，第２乗算係数を大きくすれば、広がり感をなくすことができ、乗算係数を小さくすれば広がり感を広げることができる。また、第１及び第２の乗算係数を適宜設定することにより、収音範囲の向き（ビーム方向）を調整することも可能である。なお、以後、マイク部２ａの収音範囲とは、マイク２ａ１，２ａ２による全体的な収音範囲であって、指向性制御後のものをいうものとする。

また、本実施の形態においては、ＡＤＣ６１ａ，６１ｂからの各音声信号を、そのまま出力することもできるようになっている。ＡＤＣ６１ａ，６１ｂからの音声信号を用いることで、外部回路によって指向性制御を行うことも可能である。

収音部２には、ノイズリダクション（ＮＲ）部２ｃが設けられている。ＮＲ部２ｃは、制御部１に制御されて、マイク部２ａによって取得された音声信号からノイズを除去する。

図７は図１中のＮＲ部２ｃの具体的な構成の一例を示す回路図である。なお、図７は１系統の音声データを処理する回路であり、マイク２ａ１，２ａ２からの２つの音声信号を処理する場合には、図７と同様の構成の回路を２系統用いる。

図７において、指向性制御部２ｂからの各音声信号は入力部７１に供給される。入力部７１は入力された音声信号をそれぞれ取込んで、減算部７２及び特定周波数音声判定部７３に出力する。特定周波数音声判定部７３は、入力された音声信号の周波数解析を行って、ノイズ成分の周波数を求める。

声の音声パターンは、単語や音節の感情表現や言い回しに従って、周囲のノイズと異なり、周波数特性が大きく変化する。一方、ノイズは、周波数特性の差異よりも音の大きさ（振幅）の変化が大きく、音の大きさがあまり変わらない人の声とは明らかに特徴が異なる。そこで、特定周波数音声判定部７３は、周波数特性があまり変化しない特定周波数をノイズの周波数であるものと判定し、周波数特性が変化する成分を音声成分であると判定する。特定主波数音声判定部７３は、判定結果を振幅変動予測部７４に出力する。

振幅変動予測部７４は、特定周波数音声判定部７３からの判定結果に基づいて、特定周波数の振幅変動がノイズレベルの変動であるものとして、その変動を予測する。振幅変動予測部７４は、予測結果をノイズレベルの変動の予測としてそのまま出力すると共に減算部７２にも与える。減算部７２は、入力された音声信号から振幅変動予測部７４の予測結果を減算することによって、音声信号からノイズ成分を除去して出力する。

こうして、収音部２は、マイク部２ａが収音した音声をデジタル化し、指向性制御前後の音声信号及びＮＲ部２ｃによってノイズリダクション処理した音声信号を制御部１に出力する。

本実施の形態においては、収音部２にはノイズ判定部２ｄが設けられている。ノイズ判定部２ｄは、収音した音声のうち環境ノイズを求める。例えば、ノイズ判定部２ｄは、マイク２ａ１，２ａ２によって得られた音声信号の合成信号に基づいて環境ノイズを求めてよく、また、マイク２ａ１，２ａ２のいずれか一方、例えば背面マイク２ａ２によって得られた音声信号に基づいて環境ノイズを求めてよい。例えば、ノイズ判定部２ｄは、マイク２ａ１，２ａ２によって得られた音声信号の合成信号の二乗平均を求め、求めた二乗平均の値を環境ノイズとして求めて出力してもよい。また、ノイズ判定部２ｄは、例えば背面マイク２ａ２によって得られた音声信号の二乗平均を求め、求めた二乗平均の値を環境ノイズとして求めて出力してもよい。

なお、ノイズ判定部２ｄは、図６の指向性制御部２ｂのＡＤＣ６１ａ，６１ｂの出力を用いて、環境ノイズを求めることができる。また、ノイズ判定部２ｄは、指向性制御部２ｂによって所定の指向特性が付与された指向性制御後の音声信号に基づいて環境ノイズを求めてもよい。

また、ノイズ判定部２ｄは、マイク部２ａによって得られる音声のうち所定の周波数帯域の音声信号に基づいて環境ノイズを求めてもよい。また、例えば、ノイズ判定部２ｄは、マイク部２ａによって得られる音声のうち所定の音声特徴の音声信号に基づいて環境ノイズを求めてもよい。例えば、ノイズ判定部２ｄは、マイク部２ａによって得られる音声のうち人の話に基づく音声信号を音声特徴から抽出し、抽出した音声信号に基づいて環境ノイズを求めてもよい。

例えば、音声認識の対象以外の人の声は、音声認識に悪影響を与えることが考えられる。従って、音声成分の出力に基づいて環境ノイズの判定を行った場合には、音声認識性能に影響を与えるか否かを判定しやすい場合もある。そこで、例えば、ノイズ判定部２ｄは、図７のＮＲ部２ｃの減算部７２からの音声成分の出力に基づいて環境ノイズを求めてもよい。また、ノイズ判定部２ｄは、振幅変動予測部７４のノイズ成分の出力に基づいて環境ノイズを求めてもよい。ノイズ判定部２ｄは、環境ノイズの判定結果を制御部１に出力するようになっている。

制御部１には、提示制御部１ａが構成されている。提示制御部１ａは、表示や音声出力に関する各種処理を実行する。収音装置１０には提示部６が設けられている。提示部６は図示しない表示装置やスピーカ等によって構成することができる。提示部６は、例えば筐体１０ａの正面に設けられたＬＥＤ４８（図４参照）によって構成されていてもよい。提示制御部１ａは、ノイズ判定部２ｄの判定結果を提示部６に表示させることができるようになっている。例えば、提示制御部１ａは、環境ノイズの判定結果により、環境ノイズのノイズレベルが所定の閾値よりも大きい場合には、取得された環境ノイズのレベルでは十分な音声認識性能が得られず、ディクテーション不能であることを示す表示を表示させるようになっていてもよい。例えば、提示制御部１ａは、提示部６としてＬＥＤ４８が採用されている場合には、ＬＥＤ４８を赤色で点滅させることによって、ディクテーション不能であることを提示するようになっていてもよい。

また、提示制御部１ａは、提示部６がＬＥＤ４８によって構成されている場合には、ＬＥＤ４８を青色で点滅させることによって環境ノイズの判定期間であることを示すようになっていてもよく、ＬＥＤ４８を青色で点灯させることによって環境ノイズのレベルが比較的低く、ディクテーション可能であることを示すようになっていてもよい。

また、提示部６として図示しないＬＣＤが採用されている場合には、提示制御部１ａは、提示部６の表示画面上に、環境ノイズの判定結果を表示させるようになっていてもよい。例えば、提示制御部１ａは、提示部６の表示画面上に、「現在の環境ノイズではディクテーション不能です」等のエラーメッセージを表示させるようになっていてもよく、また、提示部６がスピーカによって構成されている場合には、エラーメッセージの音声をスピーカから出力させるようになっていてもよい。

収音装置１０には操作部３が設けられている。操作部３は、各種キーやボタン等によって構成されており、ユーザ操作に基づく操作信号を制御部１に出力するようになっている。例えば、図４の例では、筐体１０ａの正面には、操作部３として、録音開始ボタン４９ａ、停止ボタン４９ｂ、再生開始／一時停止ボタン４９ｃ、巻戻しボタン４９ｄ及び早送りボタン４９ｅ等が配設されている。また、操作部３として、筐体１０ａの正面には、環境ノイズの判定モードに移行するためのモードボタン５０ａ，５０ｂやディクテーションの開始を指示するボタン５０ｃ等も設けられている。

制御部１は、操作部３のユーザ操作に基づく操作信号が与えられ、この操作信号に基づいて各部を制御するようになっている。例えば、操作部３によってユーザはマイク部２ａの指向特性を制御する操作を行うこともでき、制御部１は、ユーザ操作に応じた指向特性をマイク部２ａに設定することができるようになっている。

また、収音装置１０には、姿勢判定部４も設けられている。姿勢判定部４は、例えば、加速度センサやジャイロセンサ等によって構成することができ、収音装置１０の筐体１０ａの姿勢を判定して判定結果を制御部１に出力するようになっている。また、音質調整部７は、制御部１に制御されて、収音部２によって収音された音声の周波数特性を調整することができる。収音装置１０には、時計部８も設けられている。時計部８は、時刻情報を発生して制御部１に出力する
収音装置１０には通信部５が設けられている。通信部５は、制御部１に制御されて、外部機器との間で有線又は無線によるデータの送信及び受信が可能である。例えば、通信部５としては、ＵＳＢ規格の有線通信やＷｉｆｉ等の無線ＬＡＮやブルートゥース（登録商標）等による無線通信が可能に構成されている。制御部１は、通信部５を介して、マイク部２ａによって収音したそのままの音声信号、指向特性制御後の音声信号、ノイズリダクション処理後の音声信号、或いは音声調整後の音声信号等を外部機器に送信することができるようになっている。

また、収音装置１０には、フィルタ情報記録部９が設けられている。フィルタ情報記録部９は、フィルタ部４２のフィルタ特性の情報が記録されている。制御部１は、フィルタ情報記録部９からのフィルタ特性の情報に基づいて音質調整部７を設定することで、フィルタ部４２の周波数特性を補正することができ、補正後の音声信号を通信部５を介して出力することができる。また、制御部１は、フィルタ特性の情報をそのまま通信部５を介して外部機器に出力することもできる。

なお、制御部１には、トラック入力部１ｂが構成されている。トラック入力部１ｂは、フレーズを判定して、判定した各フレーズにインデックスを付ける処理を行うようになっている。また、収音装置１０にはノイズ情報記録部１１が設けられている。ノイズ情報記録部１１は、例えばＩＣメモリによって構成されていてもよく、制御部１に制御されて、ノイズ情報等を記録する。

次に、図２を参照してディクテーション装置の構成について説明する。図２に示すように、ディクテーション装置２０には、制御部２１が設けられている。制御部２１は、ＣＰＵ等を用いたプロセッサによって構成されて、図示しないメモリに記憶されたプログラムに従って動作して各部を制御するものであってもよいし、ハードウェアの電子回路で一部を置き換えてもよい。

ディクテーション装置２０は通信部２２を有している。通信部２２は、制御部２１に制御されて、収音装置１０の通信部５との間で所定の伝送路を介して通信可能である。通信部２２は、収音装置１０から送信された各種音声信号を制御部２１に出力することができる。

ディクテーション装置２０にはテキスト化部２３が設けられている。テキスト化部２３は、制御部２１に制御されて、公知の音声認識処理により、入力された音声信号に基づくテキストを生成する。記録部２４には、このテキスト化に用いる音声テキスト化辞書部２４ａを有する。テキスト化部２３は、音声信号の特徴量を求め、求めた特徴量と音響モデルとのマッチング演算を行い、音声テキスト化辞書部２４ａの音声テキストを参照して、音声信号に含まれる人の声の情報をテキスト化する。

記録部２４にはフォーマット情報部２４ｂも記録されている。フォーマット情報部２４ｂは、テキスト化された音声情報から所定のドキュメントを生成するためのフォーマットが記述されたフォーマット情報が記録されている。制御部２１のドキュメント化部２１ｃは、フォーマット情報部２４ｂのフォーマット情報を参照することで、テキスト化された音声情報からドキュメントを生成する。

図８はドキュメント化部２１ｃによって生成されるドキュメントの一例を説明するための説明図である。図８はドキュメントとしてカルテを生成する例を示している。ドキュメント化部２１ｃは、フォーマット情報によってカルテのフォーマットを取得してカルテのドキュメントを生成する。図８のカルテは、「患者」、「年齢」、「性別」、「部位」、「所見」及び「日付」の項目を有する。

例えば、医師が図８のカルテの各項目順に発話するものとする。この場合には、テキスト化部２３は、この項目順に発話された音声をテキスト化することで、各項目に設定すべきテキストを順次生成する。ドキュメント化部２１ｃは、順次取得されたテキストを、各項目の欄に配置することで、カルテを生成する。

また、例えば、ドキュメント化部２１ｃは、人の名前がテキスト化された場合には、「患者」の欄にテキスト化された名前を配置し、「ｘ歳」と発話された音声がテキスト化された場合には、「年齢」の欄にテキスト化された年齢を配置する等のように、テキスト化された情報の内容を判定して、カルテの各欄にテキスト化された情報を配置するようにしてもよい。また、例えば、ドキュメント化部２１ｃは、テキスト化された文字列が各項目の文字列に一致することによって、各項目に対する入力操作であるものと判定してもよい。例えば、「患者」の発音に続けて入力された音声のテキストを「患者」の欄に配置するようにしてもよい。こうして、ドキュメント化部２１ｃにより、自動的にカルテが生成される。

制御部２１には、記録再生制御部２１ａが構成されている。記録再生制御部２１ａは、通信部２２を介して入力された各種音声信号を記録部２４に与えて記録させることができる。また、記録再生制御部２１ａは、記録部２４に記録されている音声を読み出して再生することができる。テキスト化部２３及びドキュメント化部２１ｃは、再生された音声信号に基づいて、テキスト化処理及びドキュメント化処理を行うこともできるようになっている。

また、制御部２１には、音声処理部２１ｂも設けられている。音声処理部２１ｂは、通信部２２を介して受信した音声信号又は記録再生制御部２１ａによって再生された音声信号に対して、各種音声処理が可能である。例えば、音声処理部２１ｂは、収音装置１０の指向性制御部２ｂと同様の指向性制御、ノイズリダクション処理、音質調整処理等が可能である。これにより、収音装置１０からマイク部２ａによって取得された音声信号がそのまま与えられた場合でも、音声処理部２１ｂによる音声処理によって、テキスト化部２３及びドキュメント化部２１ｃは、効果的なテキスト化処理及びドキュメント化処理を行うことができるようになっている。

次に、図３を参照して再生記録装置３０について説明する。図３は再生記録装置３０として、例えばパーソナルコンピュータ３０ａを採用することができることを示しており、パーソナルコンピュータ３０ａによって、再生記録装置３０を構成することができる。この場合には、パーソナルコンピュータ３０ａを操作するキーボード３４ａが、再生記録装置３０の入力部３４に相当し、パーソナルコンピュータ３０ａに内蔵された図示しないハードディスクが、再生記録装置３０の記録部３３に相当する。

再生記録装置３０は、通信部３１を有している。通信部３１は、収音装置１０の通信部５との間で所定の伝送路を介して通信可能である。通信部３１は、収音装置１０から送信された各種音声信号を音声再生部３２に出力することができる。

音声再生部３２は、図示しないスピーカを備えており、通信部３１を介して受信された音声信号に基づく音声を出力する。パーソナルコンピュータ３０ａの操作者３５は、音声再生部３２によって出力される音声を聞きながら、入力部３４（キーボード３４ａ）を操作してテキスト入力を行う。入力部３４に対する入力操作によって、記録部３３にテキストデータが記憶される。

次に、このように構成された実施の形態の動作について図９から図１４を参照して説明する。図９は収音装置の動作を説明するためのフローチャートである。図１０は環境ノイズ判定処理の具体的な手順の一例を示すフローチャートである。図１１Ａ及び図１１Ｂは提示制御部１ａによるＬＥＤの点灯制御を説明するための説明図である。図１２Ａから図１２Ｅは実施の形態の動作を説明するための説明図である。また、図１３は音声ファイルの構成の一例を示す説明図である。図１４はディクテーション装置の動作を説明するためのフローチャートである。

（収音）
図１２Ａから図１２Ｅは本実施の形態における収音装置を使用する様子を示している。図１２Ａはユーザ８１が右手８２Ｒで筐体１０ａを把持している様子を示している。例えば、本実施の形態は、ディクテーションに際して、音声認識精度を向上させるために、収音部２を構成するマイク部２ａに口を近づけて発話するものとする。例えば、図１２Ａ及び図５に示すように、ユーザ８１は、右手８２Ｒで筐体１０ａを把持して、正面マイク２ａ１によって音声を取得しやすいように、口８３（図５では口５２）をフィルタ部４２に近づけて発話を行う。なお、図１２Ａの収音範囲Ｄｗは、正面マイク２ａ１及び背面マイク２ａ２によるマイク部２ａの収音範囲であって、指向性制御により比較的広い収音範囲に設定された状態を示している。

図９のステップＳ１において、制御部１は録音モードが設定されているか否かを判定する。例えば、図４の録音開始ボタン４９ａが操作されることによって、録音モードに移行する。なお、図１の収音装置１０は音声記録用の記録部を有していないので、録音モードでは、収音による各種音声信号を通信部５から送信する処理が行われ、図２のディクテーション装置２０において音声信号の記録部２４への記録が行われる。従って、収音装置１０については、図９の録音は収音を意味する。このように、図９は収音装置１０とディクテーション装置２０とによって構成された例えばＩＣレコーダ等の装置の動作を示している。なお、図１の収音装置１０に音声記録用の記録部を設けて、収音装置１０単体で録音が行われるようになっていてもよい。なお、ディクテーションに際して録音は必ずしも必要ではないが、外部機器や、図示しないクラウド上のコンピュータにおいてディクテーション処理を行うことを考慮した場合、録音を行った方がよい。

本実施の形態においては、ディクテーション作業に先だって、環境ノイズ判定モードを実行する。制御部１は、電源投入によって自動的に環境ノイズ判定モードに移行してもよく、ユーザ操作に基づいて環境ノイズ判定モードに移行してもよい。例えば、ユーザが図４に示すように、モードボタン５０ａ，５０ｂを同時に所定秒数（例えば５秒間）押すことによって、環境ノイズ判定モードに移行するようになっていてもよい。

制御部１は、ステップＳ１において録音モードが指定されていないものと判定すると、ステップＳ２において、環境ノイズ判定モードが指定されているか否かを判定する。制御部１は、ステップＳ２において、環境ノイズ判定モードが指定されていないと判定した場合には、処理をステップＳ２１に移行する。ステップＳ２１〜Ｓ２４は、ディクテーション装置２０の制御部２１による制御を示しており、制御部２１は、ユーザ操作に基づいて記録部２４から音声ファイルを選択して（ステップＳ２１）、再生する（ステップＳ２２）。制御部２１は、ユーザによって送信要求がされているか否かを判定し（ステップＳ２３）、送信要求されている場合には送信を行う（ステップＳ２４）。

図９のステップＳ２〜Ｓ８は、環境ノイズの判定処理を示している。また、図１０の各ステップは、図９のステップＳ２〜Ｓ５の各手順の具体例を示している。図１０においては、ステップＳ３１においては、制御部１はボタン５０ａ，５ｂが同時に５秒以上押されたことによって、環境ノイズ判定モードに移行するようになっている。

環境ノイズ判定モードが指定されると、制御部１は図９のステップＳ２からステップＳ３に処理を移行して、ガイドを発生する。このガイドは、環境ノイズ判定モードに移行したことをユーザに告知するためのものであり、例えば、制御部１は、収音装置１の筐体１０ａを口元に構えた状態で声を出さないように、音声や画面表示によって指示する。また、図１０の例では、制御部１は、ステップＳ３２において、ＬＥＤ４８を青色で点滅させることで、環境ノイズ判定モードに移行したことを提示する。

図１１Ａはこの場合におけるＬＥＤ４８の点滅制御を示している。図１１Ａの例では、ハイレベル（Ｈ）が点灯状態、ローレベル（Ｌ）が消灯状態を示し、３００ｍｓ（秒）毎に点灯と消灯とを繰り返す点滅が行われることを示している。

ユーザ８１はガイド表示や、ＬＥＤ４８の点滅状態によって、環境ノイズ判定モードに移行したことを認識することができる。これにより、ユーザが環境ノイズ判定モードの実施中に筐体１０ａの姿勢を変化させてしまったり、不要な発話をしてしまったりすることを防止することができる。

次に、制御部１は、図９のステップＳ４（図１０のステップＳ３３）において、ノイズ判定を行う。この場合には、制御部１は、指向性制御部２ｂを制御して、マイク部２ａの収音範囲を最も広い収音範囲に設定する。収音部２のノイズ判定部２ｄは、環境ノイズのレベル判定を行って、判定結果を制御部１に出力する。制御部１は、この判定結果を提示部６に表示する（ステップＳ５）。なお、ユーザ８１によって、マイク部２ａの指向特性が設定されている場合には、ユーザ設定による指向特性の状態で環境ノイズを判定してもよい。

例えば、制御部１は、判定結果によって、ディクテーションに必要な音声認識性能が得られるか否かを判定する。例えば、図１０のステップＳ３４において、環境ノイズのレベルが所定の閾値よりも大きいか否かを判定する。制御部１は、環境ノイズのレベルが所定の閾値よりも大きい場合には、ディクテーションに必要な音声認識性能が得られないと判定し、環境ノイズのレベルが所定の閾値以下の場合には、ディクテーションに必要な音声認識性能が得られるものと判定してもよい。

制御部１は、環境ノイズのレベルが比較的小さく、ディクテーションに必要な音声認識性能が得られると判定した場合には、提示制御部１ａによって、ＬＥＤ４８を青で点灯させる（ステップＳ３５）。次に、制御部１は、所定時間（例えば３０秒間）点灯が継続されたか否かを判定し（ステップＳ３６）、青色の点灯が所定時間継続すると、処理をステップＳ３７に移行してＬＥＤ４８を消灯し、処理を終了する。なお、青の点灯時間が所定期間に到達するまでは、処理はステップＳ３３に戻される。

ここで、図１２Ｂに示すように、収音範囲Ｄｗ内の方向に空調装置８５が存在し、空調装置８５から比較的大レベルの騒音８６が発生しているものとする。この場合には、環境ノイズのレベルが所定の閾値よりも大きくなることがある。制御部１は、環境ノイズのレベルが比較的大きく、ディクテーションに必要な音声認識性能が得られないと判定した場合には、提示制御部１ａによって、ＬＥＤ４８を赤で点滅させる（ステップＳ４１）。図１１Ｂはこの場合におけるＬＥＤ４８の点滅制御を示している。図１１Ｂの例では、１００ｍｓ（秒）毎に点灯と消灯とを繰り返す比較的高速な点滅が行われることを示している。

ユーザ８１はＬＥＤ４８の赤い色の比較的高速な点滅によって、環境ノイズのレベルが高く、十分な音声認識性能が得られないことを、ディクテーション作業の前に認識することができる。制御部１は、所定時間（例えば３０秒間）、高速の点滅が継続されたか否かを判定し（ステップＳ４２）、赤色の高速点滅が所定時間継続すると、処理をステップＳ４３に移行してＬＥＤ４８を消灯し、処理を終了する。なお、赤の点滅時間が所定期間に到達するまでは、処理はステップＳ３３に戻される。

このように、本実施の形態においては、ディクテーション作業の開始前において、環境ノイズのレベルを判定してその結果をユーザに提示するようになっている。これにより、ユーザは、例えばディクテーションに必要な音声認識性能が得られるか否かを、ディクテーション作業の前に事前に確認することができる。

更に、本実施の形態においては、音声認識性能を向上させるために、環境ノイズ源の方向を特定するための走査を行うことができるようになっている。制御部１はステップＳ６においてマイク部２ａの収音範囲を狭くすると共に、収音範囲を変化させて、環境ノイズを判定する。制御部１は、姿勢判定部４の出力によって、筐体１０ａの姿勢を求める。例えば、制御部１は、姿勢判定部４によって判定された筐体１０ａの所定の姿勢の状態を例えば直交座標系において基準姿勢として求め、この基準姿勢を基準に、マイク部２ａの各ビーム方向を判断し、ビーム方向毎に環境ノイズを求めてのノイズ分布情報としてノイズ情報記録部１１に記録する。即ち、ノイズ分布情報は、環境ノイズの判定期間において、ノイズの方向及び強さをノイズの分布として求めたものである。

図１２Ｃはノイズ源の方向特定のための走査を示しており、マイク部２ａの収音範囲Ｄｎｍは十分に狭くなっている。図１２Ｃの例では、空調装置８５はこの収音範囲Ｄｎｍの方向に位置することから、騒音８６により収音範囲Ｄｎｍにおける環境ノイズレベルが比較的高くなる。制御部１は、マイク部２ａの収音範囲を狭くした状態でビーム方向を変化させることによって、基準姿勢を基準にしてノイズ源の方向の分布及び各ノイズ源によるノイズレベルをノイズ分布情報として求める。

制御部１は、ステップＳ７において、走査可能な全ての方向を走査したか否かを判定し、全ての方向を走査するまでステップＳ６，Ｓ７の処理を繰り返す。全ての方向の走査が終了すると、制御部１は、ステップＳ８において、各方向について求めたノイズのノイズ分布情報をノイズ情報記録部１１に記録すると共に、走査結果によっては、警告を発する。例えば、全ての走査方向において、環境ノイズ源のレベルが所定の閾値よりも大きく、ディクテーションに必要な音声認識性能が得られないと判定した場合には、その旨を示す表示を提示部６に表示させたり、音声出力させたりする。或いは、所定レベル以上の環境ノイズ源がいずれの方向に存在するかを提示するようになっていてもよい。

次に、ユーザ８１はディクテーション作業の開始のために、録音モードを指定するものとする。制御部１は、ステップＳ１において、録音モードが指定されているものと判定すると、ステップＳ１１において、環境ノイズのレベルが所定の閾値よりも小さいか否かを判定する。制御部１は、環境ノイズのレベルが所定の閾値よりも小さい場合、例えばステップＳ４において環境ノイズレベルが比較的小さいと判定した場合には、処理をステップＳ２０に移行して、広い収音範囲を設定した状態で収音を行い、収音した音声等を通信部５から送信してディクテーション装置２０において記録させる。この場合には、環境ノイズレベルが比較的小さいので、十分な音声認識性能が得られると考えられる。

例えば、ユーザ８１は、図１２Ａに示すように、筐体１０ａを右手８２Ｒによって把持し、マイク部２ａに口８３を近づけた状態で発話する。収音部２は、ユーザ８１の音声を取得し、マイク２ａ１，２ａ２によって取得されたままの音声データ、指向性制御部２ｂによる指向性制御後の音声データ、ＮＲ部２ｃによるノイズキャンセル後の音声データを制御部１に出力する。なお、収音部２は、指向性に関する指向性情報、ノイズリダクション処理に関するＮＲ情報についても制御部１に出力する。制御部１は、収音部２からの各種音声データをそのまま、或いは音質調整部７によって音質調整した後、通信部５を介して外部に送信する。なお、制御部１は、指向性情報、ＮＲ情報、フィルタ情報記録部９に記録されているフィルタ情報についても通信部５から外部に送信してもよい。

一方、制御部１は、ステップＳ１１において環境ノイズのレベルが所定の閾値以上であると判定した場合には、ステップＳ１２において、収音範囲を狭くして、所定のビーム方向に設定した状態で音声記録を開始する。例えば、ビーム方向としては、図４の角度θの方向をビーム方向としてもよい。

図１２Ｄは狭い収音範囲で収音する状態を示しており、収音範囲Ｄｎ１は十分に狭く、収音範囲Ｄｎ１以外の方向に存在するノイズ源の影響を抑制した録音が可能である。この場合においても、収音部２は、ユーザ８１の音声を取得し、マイク２ａ１，２ａ２によって取得されたままの音声データ、指向性制御部２ｂによる指向性制御後の音声データを得る。ステップＳ１３では、ＮＲ部２ｃは、ノイズを予測しノイズの判定結果を得る。制御部１は、ＮＲ部２ｃにおけるノイズの判定結果をノイズ情報としてノイズ情報記録部１１に記録する。

なお、ノイズ情報は、指向性が変化する毎に記録される。或いは、制御部１は、収音期間におけるノイズ情報、即ち、収音開始からの各時間において、ＮＲ部２のノイズ判定結果をノイズ情報として順次求める。

ＮＲ部２ｃは、ノイズの判定結果を用いて音声信号からノイズをキャンセルし（ステップＳ１４）、ノイズキャンセル後の音声データを制御部１に出力する。なお、制御部１は、ＮＲ部２ｃのノイズリダクション処理に関するＮＲ情報についても、ノイズ情報記録部１１に記録する。

制御部１は、収音部２からの各種音声データをそのまま、或いは音質調整部７によって音質調整した後、通信部５を介して外部に送信し、ディクテーション装置２０において記録させる（ステップＳ１５）。また、制御部１は、指向性情報、ＮＲ情報、フィルタ情報記録部９に記録されているフィルタ情報についても通信部５から外部に送信してもよい。

制御部１は、ステップＳ１６において、環境ノイズのレベルが録音開始時に比べて大きくなったか否かを判定する。なお、制御部１は、ステップＳ１６において、音声データ中の声の成分のレベルが録音開始時よりも小さくなったか否かを判定してもよい。録音時には、ユーザ８１が収音装置１０の筐体１０ａを手に把持した状態で発話するようになっており、録音途中において筐体１０ａの姿勢が変化して、収音範囲が変わってしまうことがある。例えば図１２Ｅに示すように、筐体１０ａの姿勢が変化してマイク部２ａの収音範囲がＤｎ１からＤｎ２に変化し、その結果収音範囲Ｄｎ２の方向にノイズ源となる空調装置８５が位置するようになることがある。そうすると、空調装置８５の影響によって、環境ノイズのレベルが大きくなり、音声認識性能が低下することが考えられる。

制御部１は、環境ノイズのレベルが大きくなったものと判定すると、ステップＳ１７に処理を移行して、指向性を調整する。即ち、ノイズ情報記録部１１に記録されているノイズ分布情報によって示されるノイズ源の位置と姿勢判定部４からの姿勢情報とに基づいて、ノイズ源の方向が収音範囲に含まれなくなるように、指向性制御部２ｂによる指向性制御を行う。これにより、環境ノイズのレベルは小さくなって、音声認識性能を向上させることができる。なお、制御部１は、姿勢判定部４の姿勢情報のみに基づいて、マイク部２ａの収音範囲を録音開始時に一致させるように指向性制御を行うようになっていてもよい。制御部１は、ステップＳ１７において指向性を調整した後、処理をステップＳ１３に戻して、録音を継続する。
つまり、このような工夫によって、複数のマイクロホンにより構成された収音部の指向性を制御する指向性制御部によって指向性を変更しながら、ディクテーションにおけるノイズを判定し、このノイズが所定のレベル（所定の基準値）よりも大きい場合には、指向性制御部によって収音部の収音範囲を第１の範囲よりも狭い第２の範囲に設定した状態で収音方向を変化させて、良好なディクテーション音声を得ることが可能となる。つまり、収音時の有効範囲を制限することで、ディクテーション用の音声と環境ノイズとのＳ／Ｎ比を向上させることが可能となる。ここでは、一般化して、ノイズレベルと書いたが、これは、例えば、音響学者が提案するＮＣ（Noise Criteria）値といった、オフィス内騒音の実験に基づく指標を利用した値、広帯域スペクトルを持つ定常騒音で空調などを判定する値を用いて数値レベル化する。例えば電話の声が聞き取れるレベルとされるＮＣ−４０などを基準値にして、音圧レベルで騒音を判定してもよい。電話で聞き取れるレベルとマイクで聞き取れるレベルが同様とした設計の場合、このような設定で良い。もちろん、ＮＣ−４０のみを基準値にする必要はなく、各音圧、各周波数に応じたアナログ的な判定でもよい。また、これは、指向性によって切り替えても良い。また、マイクのダイナミックレンジの何分の１かを基準値とする設定の仕方、機器を利用する人の声が最大でどれくらいの音圧であるかなどを判定し、それによって決まる最大測定音圧と、そのときの環境ノイズをＳ／Ｎ比で判定した結果をノイズレベルと設定してもよい。つまり、最大限の声でディクテーションし、その音声がダイナミックレンジを越えないようなマイク感度、あるいは回路ゲインを設定し、そのときに、ディクテーションが可能な許されるノイズレベルに基づいて基準値を決定してもよい。このようにして、ディクテーションにおけるノイズの分布が判定できるので、これを判定する手段なり手順と前記ノイズの分布の情報を記録する手段なり手順があれば、前記収音部の姿勢の判定結果及び前記ノイズの分布の情報に基づいて、収音部のノイズのレベルを所定のレベル（これについては、すでに述べた通り、マイクのダイナミックレンジやＮＣ値などを参考に設定し、指向性によって、あるいは、マイクの性能に、または発話者の声を判定するための周波数域によって変更してもよい）よりも小さくするように前記指向性制御部に前記収音部の収音方向を制御させながら収音を行う手順を設けることよって、これを反映した指向性などの制御を行い、極めて信頼性の高いディクテーション用の声の収音が可能となる。つまり、指向性を変える事によって、ディクテーション音声と環境ノイズの音圧などの比率（Ｓ／Ｎ比）の向上や、環境ノイズの観測値の減少となるような指向性の切換等を行えば良い。

制御部１は、ステップＳ１８において、録音終了操作が行われたか否かを判定する。録音終了操作が行われていない場合には、制御部１は処理をステップＳ１１に戻す。制御部１は、録音終了操作が行われたことを検出すると、ステップＳ１９において音声ファイル化を指示する。即ち、通信部５によって録音の終了がディクテーション装置２０に伝達され、ディクテーション装置２０は、受信した音声データをファイル化する。また、ディクテーション装置は、マイク特性やノイズ情報等の記録を行ってもよい。

図１３は収音装置１０からの送信データによって生成可能な音声ファイルの構成の一例を示す説明図である。

図１３の例では、音声ファイルは、ファイル名、主音声データ、副音声データ、ノイズリダクション後の音声データ（ＮＲ）を含み、更に補助データとして、日時の情報、修復情報、マイク特性の情報、ＮＲ情報、指向性情報、指向性別のノイズ情報を含む。なお、主音声データ、副音声データは指向性制御後の音声データであるが、音声ファイルに指向性制御を行っていないマイク２ａ１，２ａ２からの２つの音声データを含めてもよい。

なお、図９では、ディクテーションのための録音に際して、環境ノイズに応じて指向特性を調整するようになっているが、ユーザが設定した指向特性の状態で録音を行うようになっていてもよい。

（ディクテーション）
図１４は図２のディクテーション装置２０によって実行されるディクテーション処理を示している。なお、図１４の処理は図示しないクラウド上のコンピュータ等によって実行することも可能である。ディクテーション装置２０の記録部２４には、図１３に示す各データだけでなく、指向性制御を行っていないマイク２ａ１，２ａ２からの２つの音声データを含む音声ファイルが記録されているものとする。

制御部２１は、ステップＳ３１において、記録部２４にディクテーションの対象となる音声ファイルが取得されているか否かを判定する。取得されていない場合には、制御部２１はステップＳ３２において取得の待機状態となる。ディクテーション対象となる音声ファイルが取得されると、制御部２１は、記録部２４からのノイズリダクション後の音声データ（ＮＲ音声）を再生する（ステップＳ３３）。制御部２１は、ステップＳ３４において、テキスト化部２３を制御して、音声でデータを文字化する。次に、ドキュメント化部２１ｃは、ステップＳ３５において、文字化したテキストが、生成しようとするドキュメントの項目及びその内容として判定できるものであるか否かを判定する。判定できる場合には、ドキュメント化部２１ｃは、ステップＳ３６においてテキスト化した音声をドキュメント化する（ステップＳ３６）。制御部２１は、ステップＳ３７においてドキュメント化が終了したか否かを判定し、終了していない場合には処理をステップＳ３３に戻し、終了した場合にはステップＳ３８において生成したドキュメントを記録部２４に記録する。

一方、ステップＳ３５におけるドキュメント化部２１ｃの判定によって、文字化したテキストがドキュメントの生成に利用できないものと判定された場合には、制御部２１は、ステップＳ４１〜Ｓ４７において、ノイズリダクション処理をやり直してドキュメント化を試みる。ノイズリダクション処理においては、ノイズ成分だけでなく音声成分も除去される可能性がある。そこで、制御部２１は、ノイズリダクション処理前の情報を生成するために、ノイズ情報が記録されているか否かを判定する（ステップＳ４１）。図９のステップＳ１３において取得されたノイズ情報がディクテーション装置２０に転送されて記録部２４に記録されている場合には、音声処理部２１ｂは、ステップＳ４２において、各時間の音声信号にノイズ情報によって得られるノイズを順次付加して、ノイズリダクション処理前の音声信号に戻した後、音声認識を再度実行する。次に、テキスト化部２３及びドキュメント化部２１ｃは、ステップＳ４５〜ステップＳ４７においてドキュメント化を試みた後ステップＳ３７に移行する。なお、ステップＳ４５〜ステップＳ４７の処理は夫々ステップＳ３４〜Ｓ３６と同一の処理である。

また、制御部２１は、ステップＳ４１においてノイズ情報が記録されていないと判定した場合には、ステップＳ４３において、ノイズリダクション処理前の主音声データ及び副音声データが記録部２４に記録されているか否かを判定する。これらのデータが記録されている場合には、音声処理部２１ｂは、主音声データ及び副音声データを用いてノイズリダクション処理を実行して、ノイズを除去する。次に、テキスト化部２３及びドキュメント化部２１ｃは、ステップＳ４５〜ステップＳ４７においてドキュメント化を試みた後ステップＳ３７に移行する。

なお、制御部２１は、ステップＳ４１，Ｓ４６において、文字化したテキストがドキュメントの生成に利用できないものと判定した場合には、ドキュメントを生成することなくステップＳ３７に処理を移行する。

このように本実施の形態においては、収音装置によってディクテーションのための収音を行う場合には、環境ノイズのレベルを判定してその結果をユーザに提示するようになっている。これにより、ユーザは、例えばディクテーションに必要な音声認識性能が得られるか否かを、ディクテーション作業の前に事前に確認することができ、無駄な発話を防止することができる。また、ノイズ源の方向を特定して提示することができることから、ディクテーションのために必要な環境の改善についての知識を得ることも可能である。また、ノイズ源の分布の情報を保持して、ノイズが低減されるように或いは対象となる音声のレベルが大きくなるように収音範囲を制御することができ、音声認識性能を向上させることも可能である。更に、本実施の形態における収音装置は、取得した音声にノイズリダクション処理を施した後出力することが可能であると共に、ノイズリダクション後の音声信号だけでなくノイズリダクション前の音声信号及びノイズ情報についても出力することが可能である。これにより、ディクテーション処理を実行する装置において、ノイズリダクション処理後の音声に対する音声認識処理では認識精度が低い場合には、ノイズリダクション処理前の音声信号及びノイズ情報を用いて、新たにノイズリダクション処理や音声認識処理を行うことで認識精度を向上させることができることがあるという利点がある。
ここでは、一般化して、ノイズレベルと書いたが、これは、例えば、音響学者が提案するＮＣ（Noise Criteria）値といった、オフィス内騒音の実験に基づく指標を利用した値でもよい。つまり、ここでのＮＣ−４０などを基準値にして、音圧レベルで騒音を判定してもよい。これは、広帯域スペクトルを持つ定常騒音で空調などが判定できる。もちろん、ＮＣ−４０のみを基準値にする必要はなく、各音圧、各周波数に応じたアナログ的な判定でもよい。また、これは、指向性によって切り替えても良い。また、マイクのダイナミックレンジの何分の１かを基準値とする設定の仕方、機器を利用する人の声が最大でどれくらいの音圧であるかなどを判定し、それによって決まる最大測定音圧と、そのときの環境ノイズをＳ／Ｎ比で判定した結果をノイズレベルと設定してもよい。

本発明は、上記実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。

なお、特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。また、これらの動作フローを構成する各ステップは、発明の本質に影響しない部分については、適宜省略も可能であることは言うまでもない。

なお、ここで説明した技術のうち、主にフローチャートで説明した制御に関しては、プログラムで設定可能であることが多く、半導体やその他の記録媒体や記録部に収められる場合もある。この記録媒体、記録部への記録の仕方は、製品出荷時に記録してもよく、配布された記録媒体を利用してもよく、インターネットを介してダウンロードしたものでもよい。また、外部の機器が必要に応じて連携し、いくつかの機能や判断の代役を果たしてもよい。

［付記項１］
マイクロホンにより構成された収音部によって音を収音する手順と、
複数のマイクロホンにより構成された前記収音部の指向性を制御する指向性制御部によって前記収音部の収音範囲を第１の範囲に設定した状態でディクテーションにおけるノイズを判定する手順と、
指向性制御部によって前記収音部の収音範囲を前記第１の範囲よりも狭い第２の範囲に設定した状態で前記ディクテーションのための収音を行う手順と
を具備したことを特徴とする収音方法。

［付記項２］
マイクロホンにより構成された収音部によって音を収音する手順と、
複数のマイクロホンにより構成された前記収音部の指向性を制御する指向性制御部によって前記収音部の収音範囲を第１の範囲に設定した状態でディクテーションにおけるノイズを判定する手順と、
前記ディクテーションにおけるノイズが所定のレベルよりも大きい場合には、前記指向性制御部によって前記収音部の収音範囲を前記第１の範囲よりも狭い第２の範囲に設定した状態で上記ディクテーション用の収音を行う手順と
を具備したことを特徴とする収音方法。

［付記項３］
付記項２において、
収音方向を変化させながら前記ディクテーションにおけるノイズの分布を判定する手順と、
前記ノイズの分布の情報を記録する手順と、
前記収音部の姿勢の判定結果及び前記ノイズの分布の情報に基づいて、収音部のノイズのレベルを所定のレベルよりも小さくするように前記指向性制御部に前記収音部の収音方向を制御させながら収音を行う手順と
を具備したことを特徴とする収音方法。

１制御部、１ａ…提示制御部、１ｂ…トラック入力部、２…収音部、２ａ…マイク部、２ｂ…指向性制御部、２ｃ…ＮＲ部、２ｄ…ノイズ判定部、３…操作部、４…姿勢判定部、５…通信部、６…提示部、７…音質調整部、８…時計部、９…フィルタ情報記録部、１０…収音装置、１１…ノイズ情報記録部。

Claims

音を収音するマイクロホンにより構成された収音部と、
前記収音部において収音された音声に基づいてディクテーションにおけるノイズを判定するノイズ判定部と、
前記ノイズ判定部の判定結果に基づく提示を行う提示部と
を具備したことを特徴とする収音装置。
前記収音部は、複数のマイクロホンにより構成され、
前記複数のマイクロホンによる前記収音部の指向性を制御する指向性制御部を具備し、
前記ノイズ判定部は、前記指向性制御部によって前記収音部の指向性を変更させながら前記ディクテーションにおけるノイズの分布を判定する
ことを特徴とする請求項１に記載の収音装置。
前記ノイズ判定部によって判定された前記ノイズの分布の情報を記録するノイズ情報記録部
を具備したことを特徴とする請求項２に記載の収音装置。
前記収音部の姿勢を判定する姿勢判定部と、
前記姿勢判定部の判定結果及び前記ノイズの分布の情報に基づいて、収音時のノイズのレベルを小さくするように前記指向性制御部に前記収音部の指向性を制御させる制御部と
を具備したことを特徴とする請求項３に記載の収音装置。
前記収音部によって収音された音声からノイズ成分を除去するノイズリダクション処理を実行するノイズリダクション部と、
前記収音部によって収音された音声及び前記ノイズリダクション部によってノイズリダクション処理された音声を外部に送信する通信部と
を具備したことを特徴とする請求項１に記載の収音装置。
前記収音部によって収音された音声からノイズ成分を除去するノイズリダクション処理を実行するノイズリダクション部と、
前記収音部によって収音された音声、前記ノイズリダクション部によってノイズリダクション処理された音声及び前記収音部の収音期間におけるノイズの情報を外部に送信する通信部と
を具備したことを特徴とする請求項３に記載の収音装置。
マイクロホンにより構成された収音部によって音を収音する手順と、
前記収音部において収音された音声に基づいてディクテーションにおけるノイズを判定する手順と、
前記ノイズの判定結果に基づく提示を行う提示手順と
を具備したことを特徴とする収音方法。
前記ディクテーションにおけるノイズを判定する手順は、複数のマイクロホンにより構成された前記収音部の指向性を制御する指向性制御部によって前記収音部の収音範囲を第１の範囲に設定した状態で行い、
指向性制御部によって前記収音部の収音範囲を前記第１の範囲よりも狭い第２の範囲に設定した状態で前記ディクテーションのための収音を行う手順
を具備したことを特徴とする請求項７に記載の収音方法。
前記ディクテーションにおけるノイズを判定する手順は、複数のマイクロホンにより構成された前記収音部の指向性を制御する指向性制御部によって前記収音部の収音範囲を第１の範囲に設定した状態で行い、
前記ディクテーションにおけるノイズが所定のレベルよりも大きい場合には、前記指向性制御部によって前記収音部の収音範囲を前記第１の範囲よりも狭い第２の範囲に設定した状態で収音方向を変化させながら前記ディクテーションにおけるノイズの分布を判定する手順と、
前記ノイズの分布の情報を記録する手順と、
前記収音部の姿勢の判定結果及び前記ノイズの分布の情報に基づいて、前記収音部のノイズのレベルを所定のレベルよりも小さくするように前記指向性制御部に前記収音部の収音方向を制御させながら収音を行う手順と
を具備したことを特徴とする請求項７に記載の収音方法。
コンピュータに、
マイクロホンにより構成された収音部によって音を収音する手順と、
前記収音部において収音された音声に基づいてディクテーションにおけるノイズを判定する手順と、
前記ノイズの判定結果に基づく提示を行う提示手順と
を実行させるための収音プログラム。
収音部によって収音された第１の音声、前記収音された第１の音声に対するノイズリダクション処理によって取得された第２の音声及び前記収音部の収音期間におけるノイズの情報が記録された記録部から、前記第２の音声を読み出して読み出した前記第２の音声に対する音声認識によって第１のディクテーション処理を行ってドキュメントを生成する手順と、
前記第１のディクテーション処理によって前記ドキュメントを生成することができない場合には、前記第２の音声及び前記ノイズの情報を読み出して読み出した前記第２の音声に前記ノイズの情報に基づくノイズを付加して得た第３の音声に対する音声認識によって第２のディクテーション処理を行ってドキュメントを生成する手順と、
前記第２のディクテーション処理によって前記ドキュメントを生成することができない場合には、読み出した前記第１の音声に対してノイズリダクション処理を行って得た第４の音声に対する音声認識によって第３のディクテーション処理を行ってドキュメントを生成する手順と
を具備したことを特徴とするディクテーション方法。