JP2010282083A

JP2010282083A - 誤認識訂正装置、方法及びプログラム

Info

Publication number: JP2010282083A
Application number: JP2009136261A
Authority: JP
Inventors: Shuhei Oda; 修平織田; Masahide Mizushima; 昌英水島; Kenichi Furuya; 賢一古家; Yoichi Haneda; 陽一羽田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2009-06-05
Filing date: 2009-06-05
Publication date: 2010-12-16

Abstract

【課題】音声認識結果の訂正をより効率的に行う。
【解決手段】訂正は、（１）誤認識箇所の特定という作業と、（２）特定された誤認識箇所の訂正という作業の２つの作業からなる。２つの作業のうち（１）誤認識箇所の特定を、（２）特定された誤認識箇所の訂正を行う訂正者以外のものに行わせることにより、訂正者の負担を減らす。例えば、聴覚障害者に誤認識箇所の特定をさせる。信頼度、親密度を用いて、自動的に誤認識箇所を特定してもよい。また、誤認識箇所の特定を行う際に、誤認識箇所の優先順位を決定し、訂正者が優先順位が高い誤認識箇所から訂正を行うことができるようにする。
【選択図】図１

Description

この発明は、音声認識をする際に生じた誤認識箇所を推定し、その誤認識箇所を訂正する技術に関する。

音声認識とは、人が話した音声の音響信号をコンピュータ等により解析して、文字データに変換することをいう。変換にはある程度の間違いは避けられず、変換の誤りを含む部分である誤認識箇所が生じる。
従来、誤認識箇所を訂正するために、１人の訂正者が、音声認識結果である文章を目視して誤認識箇所を特定して、特定された誤認識箇所のすべてを特定された順に訂正していた（例えば、非特許文献１、非特許文献２参照。）。

小林正幸、西川俊、石原保志、「聴覚障害者のための音声認識を活用したリアルタイム字幕挿入システム（１）」、信学技法、社団法人電子情報通信学会、Ｐ．４１−４８今井亨、「放送における情報バリアフリーのための研究開発〜生字幕製作のための音声認識〜」、放送技術、２００８年８月、Ｐ．８９−９３

１人の訂正者が、誤認識箇所の特定という作業と特定された誤認識箇所の訂正という作業の２つの作業をすると訂正者に負担がかかり、音声認識率が低く誤認識箇所が多い場合には訂正が追いつかなくなる場合があるという課題があった。
また、誤認識箇所の中にはその前後の文脈から正しい内容を推測することが可能であり訂正を必要としないものもあるが、特定された誤認識箇所のすべてを特定された順に訂正をすると、この訂正を必要としない誤認識箇所についても訂正をすることになり、訂正の効率が悪いという課題があった。

上記の課題を解決するために、誤認識箇所特定部が上記文章中の誤認識箇所についての情報を取得し、優先順位決定部が上記誤認識箇所の優先順位についての情報を取得し、表示部は上記優先順位に応じて上記誤認識箇所を表示する。

誤認識箇所の特定を訂正者以外のものが行うことにより、訂正者は誤認識箇所の訂正に専念することができ負担が減る。
訂正者は、優先順位が高い順に誤認識箇所を訂正することが可能となり、訂正の効率が従来よりも向上する。

第一実施形態による誤認識訂正装置の例の機能ブロック図。第二実施形態による誤認識訂正装置の例の機能ブロック図。第三実施形態による誤認識訂正装置の例の機能ブロック図。第一実施形態による誤認識訂正方法の例の流れ図。第二実施形態によるステップＳ３の例の流れ図。第二実施形態によるステップＳ３の例の流れ図。第三実施形態によるステップＳ３の例の流れ図。この発明が使用される状況を例示するイメージ図。かしげる動作を説明するための図うなずく動作を説明するための図。優先順位に応じた誤認識箇所の表示例を示す図。優先順位に応じた誤認識箇所の表示例を示す図。優先順位に応じた誤認識箇所の表示例を示す図。優先順位に応じた誤認識箇所の表示例を示す図。

以下、この発明の実施形態を詳細に説明する。
［第一実施形態］
まず、図８を用いて、この発明が使用される状況を例示する。この例では、聴覚障害者を含む複数人が参加する職場会議を想定している。

職場会議の参加者は、話者１１、話者１２及び聴覚障害者１３の３人である。また、誤認識箇所の訂正を行う訂正者１４が、この職場会議に同席する。話者１１，１２の前にはそれぞれマイク２１，２２が置かれており、それぞれ話者１１，１２の音声を集音する。マイク２１，２２はミキサ２３を介して音声認識を行う音声認識用ＰＣ３１に接続されている。音声認識用ＰＣ３１、訂正者１４が訂正を行う訂正用ＰＣ３２、及び、誤認識箇所の訂正後の文章を聴覚障害者１３に表示する文字出力用ＰＣ３３は、必要な情報を送受信することができるようにネットワークで接続されている。

図１は、第一実施形態による誤認識訂正装置の機能ブロック図である。図４は、第一実施形態による誤認識訂正方法の流れ図である。
話者１１，１２の音声はそれぞれマイク２１，２２に入力されて、音声認識用ＰＣ３１に取り込まれる（ステップＳ１）。
音声認識用ＰＣ３１の音声認識部３１１は、話者１１，１２の音声を音声認識して（ステップＳ２）、その音声認識結果である文章を訂正用ＰＣ３２及び文字出力用ＰＣ３３に出力する。

文章の誤り部分を含む箇所である誤認識箇所についての情報、及び、各誤認識箇所の優先順位についての情報が取得されて（ステップＳ３、ステップＳ４）、少なくとも訂正用ＰＣ３２に出力される。これらの情報は訂正者１４以外のものにより生成される。これらの情報の取得方法については後述する。
誤認識箇所は、文章の誤り部分を含む箇所であり、文章の誤り部分自体（例えば、単語）であってもよいし、その誤り部分を含む箇所（例えば、句、行、段落）であってもよい。
訂正用ＰＣ３２の表示部３２１は、音声認識結果である文章、誤認識箇所及び優先順位を表示する。訂正者１４は、訂正用ＰＣ３２の入力部３２２を用いて、優先順位に応じて訂正する（ステップＳ５）。例えば優先順位が高い順に誤認識箇所を訂正する。

訂正された文章は文字出力用ＰＣ３３の表示部３３１に表示され、聴覚障害者１３に示される（ステップＳ６）。
表示部３２１，３３１は、例えばＣＲＴ（Cathode Ray Tube）、液晶ディスプレイ等の表示機器である。入力部３２２，３３２は、例えばキーボードやマウス等の入力機器である。
文章の誤り部分を含む箇所である誤認識箇所についての情報、及び、各誤認識箇所の優先順位についての情報を取得する方法がいくつかある。

第一実施形態では、訂正者１４以外の人間、例えば聴覚障害者１３が誤認識箇所を特定し、その優先順位を決定する。
すなわち、聴覚障害者１３は、表示部３３１に表示された音声認識結果である文章を見て、入力部３３２により誤認識箇所を特定する（ステップＳ３）。このように、第一実施形態では、誤認識箇所についての情報は入力部３３２により取得される。すなわち、入力部３３２が特許請求の範囲における誤認箇所特定部に対応する。

文字出力用ＰＣ３３は、表示部３３１に表示された文章の内の誤認識箇所を他の部分と区別することができるように表示する。例えば誤認識箇所の文字色や背景を変えたり斜体にしたり、誤認識箇所を含む行や段落の文字色や背景したり斜体にしたりする。
誤認識箇所についての情報は訂正用ＰＣ３２にも送られ、訂正用ＰＣ３２は文字出力用ＰＣ３３と同様にして、表示部３２１に表示された文章の内の誤認識箇所を他の部分と区別することができるように表示する。

また、聴覚障害者１３は、誤認識箇所を特定する際に、その訂正認識箇所についての訂正の必要度を表す指標である優先順位を決定してもよい（ステップＳ４）。例えば、誤認識箇所を特定する際に、「（１）至急訂正して欲しい」「（２）訂正して欲しい」「（３）訂正しなくても良い」の何れかの優先順位を入力部３３２により入力する。このように、第一実施形態では、優先順位についての情報は入力部３３２により取得される。すなわち、入力部３３２が特許請求の範囲における優先順位決定部に対応する。

文字出力用ＰＣ３３は、優先順位に応じて誤認識箇所の表示を変える。例えば、優先順位ごとに誤認識箇所の色を変える。
優先順位についての情報は訂正用ＰＣ３２にも送られ、訂正用ＰＣ３２は文字出力用ＰＣ３３と同様にして、優先順位に応じて誤認識箇所の表示を変える。

図１１から図１４を参照して、訂正用ＰＣ３２の表示部３２１に表示される、優先順位に応じた誤認識箇所の表示の例を説明する。この例は、優先順位が「（１）至急訂正して欲しい」「（２）訂正して欲しい」「（３）訂正しなくても良い」の３段階で表されるとする。図１１から図１３の例では誤認識箇所はすべて単語であるが、図１４の例のように誤認識箇所は単語を含む文章箇所であってもよい。
図１１の例では、表示部３２１には、認識結果出力窓７１、訂正窓７２、誤認識待機窓７３の３つの窓が表示される。

認識結果出力窓７１には、音声認識結果である文章が表示される。認識結果出力窓７１に表示された文章中の誤認識箇所は、他の部分と区別することができるように色等が変えて表示される。
訂正窓７２には、最も優先順位が高い誤認識箇所が表示される。訂正者１４は、この訂正窓７２に表示された誤認識箇所を見て、キーボード等の入力部３２２により正しい語句を入力する。認識結果出力窓７１に表示された文章中の誤認識箇所は、入力された正しい語句に置き換えられる。

なお、訂正用ＰＣ３２の音声出力部（図示せず）から、訂正窓７２に表示される誤認識箇所の音声を発生させてもよい。これにより、訂正者１４はその誤認識箇所の音声を聞くことができ、訂正の容易性及び確実性が増す。
誤認識待機窓７３には、特定された誤認識箇所の全部又は一部のうち最も優先順位が高い誤認識箇所以外のものが、優先順位が高い順に表示される。例えば、訂正者１４が誤認識箇所「（１）−１単語」を訂正中に、優先順位が「（１）至急訂正して欲しい」である誤認識箇所「（１）−４単語」が新たに特定されたとする。この場合、誤認識箇所「（１）−４単語」は、誤認識待機窓７３において誤認識箇所「（１）−３単語」の下に表示される。

図１２のように、訂正窓７２に、誤認識箇所のみならず、その前後の箇所の文字を表示させてもよい。これにより、訂正者１４は前後の文脈を容易に把握することができ、訂正の容易性及び確実性が増す。
図１３のように、認識結果出力窓７１の中に訂正窓７２を設けてもよい。これにより、訂正者１４はより直感的に訂正を行うことができる。また、図１４のように、誤認識箇所を含む行を訂正窓７２に表示させてもよい。

このように、誤認識箇所の特定を訂正者以外のもの（この実施形態では人間）が行うことにより、訂正者１４は誤認識箇所の訂正に専念することができ負担が減る。また、訂正者１４は、優先順位が高い順に誤認識箇所を訂正することが可能となり、訂正の効率が従来よりも向上する。さらに、特に訂正を欲する当事者である聴覚障害者が誤認識箇所を特定して、優先順位を決定することにより、さらに的確で効率が良い訂正をすることができる。

上記の例では聴覚障害者１３が誤認識箇所を特定したが、訂正者１４以外の人間であれば誰が誤認識箇所を特定してもよい。例えば、話者１１，１２が誤認識箇所を特定しても良い。この場合、話者１１，１２は、図示していない入力部から誤認識箇所についての情報を入力する。

また、誤認識箇所を特定する人間と優先順位を決定する人間とは異なる人間であってもよい。例えば、話者１１，１２が誤認識箇所を特定して、聴覚障害者１３がその特定された誤認識箇所の優先順位を決定してもよい。

［第二実施形態］
第二実施形態では、人間ではなくコンピュータが信頼度、親密度を用いて自動的に誤認識箇所を特定する。他の部分については、第一実施形態と同様である。以下、重複説明を省略するために、第一実施形態と異なる部分を中心にして説明をする。
図２は、第二実施形態の誤認識訂正装置の機能ブロック図である。図５は、第二実施形態におけるステップＳ３の流れ図である。

音声認識用ＰＣ３１は、さらに誤認識箇所特定部３１３、優先順位決定部３１４を含む。
音声認識部３１１はステップＳ２において音声認識をする際に、音声認識結果である文章を構成する各単語の信頼度を計算する。計算された信頼度は、誤認識箇所特定部３１３に送られる（ステップＳ３１ａ）。

信頼度は、入力された音声とその音声認識結果との当てはまり度合いを示す指標である。例えば「音声（おんせい）」という音声が入力されたとき、音声認識結果が「音声（おんせい）」であれば信頼度が満点近くになり、「学校（がっこう）」であれば信頼度は低くなる。「混声（こんせい）」「温泉（おんせん）」等「音声（おんせい）」に近くなれば信頼度は上がるが、逆に「音声（おんせい）」からかけ離れるほど信頼度は下がる。信頼度のより具体的な定義は、音声認識部３１１が採用する音声認識エンジンによって異なる。

誤認識箇所特定部３１３は、各単語の信頼度と所定の第一閾値Ｎ_１とを比較する（ステップＳ３２）。第一閾値Ｎ_１は求められる性能や仕様に応じて適宜決定される定数である。
信頼度が第一閾値Ｎ_１よりも小さい場合には、誤認識箇所特定部３１３はその単語又はその単語を含む部分を誤認識箇所として特定する（ステップＳ３３）。
信頼度が第一閾値Ｎ_１以上の場合には、誤認識箇所特定部３１３は何もせず、その単語については誤認識箇所として特定しない。

優先順位決定部３１４は、各単語の信頼度が小さい単語ほど高い優先順位を定める（ステップＳ４）。例えば、所定の閾値Ｔｈ_１，…，Ｔｈ_ｍ，…，Ｔｈ_ＭがＴｈ_１＜…＜Ｔｈ_ｍ＜…＜Ｔｈ_Ｍの関係を満たすとし、閾値によって区切られた各区間に優先順位を予め定めておく。その際、小さな閾値によって区切られた区間ほど大きな優先順位を定めておく。例えば、区間［Ｔｈ_ｍ−１，Ｔｈ_ｍ）の優先順位を、区間［Ｔｈ_ｍ，Ｔｈ_ｍ＋１）の優先順位よりも高くする。優先順位決定部３１４は、各単語の信頼度が閾値によって区切られた区間のいずれに含まれるかどうかを判断し、信頼度が含まれる区間に対応する優先順位をその単語の優先順位として決定する。

特定された誤認識箇所についての情報及び優先順位についての情報は文章と共に、表示部３１２、訂正用ＰＣ３２及び文字出力用ＰＣ３３に送られる。
このように、誤認識箇所の特定を訂正者以外のもの（この実施形態ではコンピュータ）が行うことにより、訂正者１４は誤認識箇所の訂正に専念することができ負担が減る。また、訂正者１４は、優先順位が高い順に誤認識箇所を訂正することが可能となり、訂正の効率が従来よりも向上する。

信頼度に代えて親密度を基準として、信頼度を基準とした場合と同様に、誤認識箇所を特定し、優先順位を決定してもよい。
親密度は、単語がどの程度なじみがあるかを示す指標であり、例えば１（なじみがない）〜７（なじみがある）という７段階で表される。

図６に、親密度を基準として誤認識箇所を特定する処理の流れを例示する。親密度を用いる場合には、図２に破線で示すように、誤認識箇所特定部３１３及び優先順位決定部３１４には、データの読み込みが可能なように親密度記憶部４が接続されているとする。親密度記憶部４には、複数の単語のそれぞれの親密度が記憶されている。

誤認識箇所特定部３１３は、音声認識部３１１による音声認識結果である文章を構成する各単語の親密度を、親密度記憶部４を参照して求める（ステップＳ３１ｂ）。後の処理は、信頼度を基準とする場合と同じであるため説明を省略する。
なお、単語の親密度が親密度記憶部４に記憶されていない場合には、親密度が第一閾値Ｎ_１よりも小さい場合と同様にして、その単語又はその単語を含む部分を誤認識箇所として特定してもよい。

［第三実施形態］
第三実施形態は、人間ではなくコンピュータが、音声認識結果である文章を読む者の動作に基づいて自動的に誤認識箇所を特定する。他の部分については、第一実施形態と同様である。以下、重複説明を省略するために、第一実施形態とは異なる部分を中心にして説明をする。

図３は、第三実施形態の誤認識訂正装置の機能ブロック図である。図４は、第三実施形態のステップＳ３の処理の流れ図である。
動作情報取得部５は、例えばカメラ、モーションセンサ、位置センサ等の人間の動作についての情報を取得することができる機器である。この例では、動作情報取得部５は、聴覚障害者の動作情報を取得するとする。音声認識結果である文章を読んでいる者であれば、聴覚障害者以外の者の動作情報を取得しても構わない。

動作情報取得部５は、表示部３３１に表示された音声認識結果である文章を読んでいる聴覚障害者の動作情報を取得する（ステップＳ３５）。取得された動作情報は、誤認識箇所特定部３３３に送られる。
誤認識箇所特定部３３３は、取得された動作情報に基づいて、文章を読んでいる聴覚障害者がかしげているかどうかを検出する（ステップＳ３６）。かしげるとは、図９のように通常の顔立ちから横に傾くしぐさである。顔の角度、顔の角度の変化に基づいてかしげているかどうかを検出することができる。

かしげていると検出された場合には、誤認識箇所特定部３３３は、そのかしげていると検出された時間帯に表示部３３１に新たに表示された文章箇所を誤認識箇所として特定する（ステップＳ３３）。例えば、かしげていると検出された時間帯に表示部３３１に新たに表示された文字を含む行を誤認識箇所として特定する。誤認識箇所についての情報は少なくとも訂正用ＰＣ３２に送られて、その情報に基づいて表示部３２１に表示される文章中の誤認識箇所は例えば赤でマーカーされる。

かしげていないと検出された場合には、誤認識箇所特定部３３３は、その時間帯に表示部３３１に表示された文章箇所を誤認識箇所として特定しない（ステップＳ３４）。
なお、ステップＳ３６においてかしげていないと検出された場合に、誤認識箇所特定部３３３は、取得された動作情報に基づいて、文章を読んでいる聴覚障害者がうなずいているかどうかを検出してもよい（ステップＳ３７）。うなずくとは、図１０のように通常の顔立ちから前に頭を下げるしぐさである。うなずきは顔を１回下げる場合に限らず、何回も上げ下げする場合もある。

うなずいていると検出された場合には、誤認識箇所特定部３３３は、その時間帯に表示部３３１に表示された文章箇所を正しく認識された箇所、すなわち正認識箇所として特定してもよい。正認識箇所についての情報は少なくとも訂正用ＰＣ３２に送られて、その情報に基づいて表示部３２１に表示される文章中の正認識箇所は例えば青でマーカーされる。

このように、誤認識箇所の特定を訂正者以外のもの（この実施形態ではコンピュータ）が行うことにより、訂正者１４は誤認識箇所の訂正に専念することができ負担が減る。また、訂正者１４は、優先順位が高い順に誤認識箇所を訂正することが可能となり、訂正の効率が従来よりも向上する。

誤認識箇所を赤でマーカーし、正認識箇所を青でマーカーすることにより、訂正者１４は、赤でマーカーされた部分を中心にして訂正して行けばよくなり、訂正者１４の疲労を軽減することが可能となる。
なお、かしげていると検出された場合には、優先順位決定部３３４が、そのときの顔の角度が大きいほど高い優先順位を決定して、その優先順位についての情報を少なくとも表示部３２１に送ってもよい。

［変形例等］
第一実施形態から第三実施形態で述べた誤認識箇所の特定方法、優先順位の決定方法は適宜組み合わせることができる。例えば、第三実施形態の方法で誤認識箇所を特定して、第二実施形態の方法で優先順位を決定してもよい。
コンピュータによって実現することができる。この場合、この装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、これ装置における各処理機能が、コンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、これらの装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

Claims

入力された音声を音声認識して、その音声認識結果である文章を生成する音声認識部と、
上記文章中の誤認識箇所についての情報を取得する誤認識箇所特定部と、
上記誤認識箇所の優先順位についての情報を取得する優先順位決定部と、
上記文章及び上記優先順位に応じて上記誤認識箇所を表示する表示部と、
訂正者による上記誤認識箇所についての訂正が入力される入力部と、
を含む誤認識訂正装置。
請求項１に記載の誤認識訂正装置において、
上記誤認識箇所特定部は、上記訂正者とは異なる者により特定された誤認識箇所についての情報が入力される部である、
を含む誤認識訂正装置。
請求項１に記載の誤認識訂正装置において、
入力された音声とその音声認識結果との当てはまり度合いを示す指標を信頼度として、上記音声認識部は、音声認識をする際に上記文章を構成する単語のそれぞれの信頼度を計算し、
上記誤認識箇所特定部は、上記計算された信頼度が所定の閾値よりも小さい単語を誤認識箇所として特定する、
ことを特徴とする誤認識訂正装置。
請求項１に記載の誤認識訂正装置において、
単語がどの程度なじみがあるかを示す指標を親密度として、各単語の親密度が記憶された親密度記憶部を更に含み、
上記誤認識箇所特定部は、上記文章を構成する単語のそれぞれの信頼度を上記親密度記憶部を参照して求めて、その求まった信頼度が所定の閾値よりも小さい単語を誤認識箇所として特定する、
ことを特徴とする誤認識訂正装置。
請求項１に記載の誤認識訂正装置において、
上記表示部に表示された上記文章を読んでいる者の動作についての動作情報を取得する動作情報取得部と、
上記誤認識箇所特定部は、上記動作情報に基づいて、上記文章を読んでいる者がかしげているかどうかを検出し、かしげていると検出された時間帯に上記表示部に表示された文章箇所を誤認識箇所として特定する、
ことを特徴とする誤認識訂正装置。
請求項１から５の何れかに記載の誤認識訂正装置において、
上記優先順位決定部は、上記訂正者とは異なる者により決定された優先順位についての情報が入力される部である、
ことを特徴とする誤認識訂正装置。
請求項１から５の何れかに記載の誤認識訂正装置において、
入力された音声とその音声認識結果との当てはまり度合いを示す指標を信頼度として、上記音声認識部は、音声認識をする際に上記文章を構成する単語のそれぞれの信頼度を計算し、
上記優先順位決定部は、上記計算された信頼度が小さい単語ほど高い優先順位を定める、
ことを特徴とする誤認識訂正装置。
請求項１から５の何れかに記載の誤認識訂正装置において、
単語がどの程度なじみがあるかを示す指標を親密度として、各単語の親密度が記憶された親密度記憶部を更に含み、
上記優先順位決定部は、上記文章を構成する単語のそれぞれの信頼度を上記親密度記憶部を参照して求めて、その求まった信頼度が小さい単語ほど高い優先順位を定める、
ことを特徴とする誤認識訂正装置。
入力された音声を音声認識して、その音声認識結果である文章を生成する音声認識ステップと、
上記文章中の誤認識箇所についての情報を取得する誤認識箇所特定ステップと、
上記誤認識箇所の優先順位についての情報を取得する優先順位決定ステップと、
上記文章及び上記優先順位に応じて上記誤認識箇所を表示する表示ステップと、
訂正者による上記誤認識箇所についての訂正が入力される入力ステップと、
を含む誤認識訂正方法。
請求項１から８の何れかに記載された誤認識訂正装置の各部としてコンピュータを機能させるための誤認識訂正プログラム。