JP2004151614A - Character data correction device, its method and program, and method of generating subtitles - Google Patents
Character data correction device, its method and program, and method of generating subtitles Download PDFInfo
- Publication number
- JP2004151614A JP2004151614A JP2002319365A JP2002319365A JP2004151614A JP 2004151614 A JP2004151614 A JP 2004151614A JP 2002319365 A JP2002319365 A JP 2002319365A JP 2002319365 A JP2002319365 A JP 2002319365A JP 2004151614 A JP2004151614 A JP 2004151614A
- Authority
- JP
- Japan
- Prior art keywords
- text data
- correction
- corrected
- voice
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 184
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012217 deletion Methods 0.000 description 22
- 230000037430 deletion Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 11
- 230000004048 modification Effects 0.000 description 10
- 238000012986 modification Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Abstract
【課題】スポーツ中継等のように観衆の声による背景雑音がある番組の音声をリアルタイムで字幕化することができる字幕の生成方法、並びに、それを実現するための文字データ修正装置、その方法及びそのプログラムを提供する。
【解決手段】文字データ修正装置50は、番組内容の音声を音声認識によりテキストデータに変換した文字列に音声との不一致箇所があるときに、オペレータが誤り指摘手段52aにより、その文字列を指摘することで、修正単位設定手段55bで設定した修正単位が文字列の修正対象となり、テキストデータ修正手段52bによって、正しい文字列を入力し、その文字列を字幕として出力することを特徴とする。
【選択図】 図2A method of generating subtitles capable of converting the sound of a program having background noise caused by the audience's voice, such as a sports broadcast, into subtitles in real time, a character data correcting apparatus for realizing the method, and a method thereof Provide the program.
When a character string obtained by converting the sound of a program content into text data by speech recognition has a part that does not match the sound, an operator points out the character string by an error indicating means (52a). By doing so, the correction unit set by the correction unit setting unit 55b becomes a correction target of a character string, and a correct character string is input by the text data correction unit 52b, and the character string is output as subtitles.
[Selection] Fig. 2
Description
【0001】
【発明の属する技術分野】
本発明は、音声からテキストデータに変換された文字を修正する文字データ修正装置、その方法及びそのプログラム、並びに、字幕の生成方法に関するものである。
【0002】
【従来の技術】
現在、テレビジョン番組の音声を字幕化して欲しいという要望はきわめて高く、既に、徐々に実施もされている。従来、字幕化を図る場合、音声認識装置を用いて、この音声認識装置で認識された認識結果による文字データ(以下、「テキストデータ」という)の誤りを修正した後、テレビ画面で出力される音声と表示される字幕とが同期するようにタイミング良く送り出し、リアルタイムで字幕化することを可能にしている(例えば、特許文献1参照)。
【0003】
図8は、従来のテレビジョン放送におけるニュース番組で使用されている字幕化システムで音声を字幕化する過程を模式的に示した模式図である。図8における字幕化システムでは、音声認識装置104と認識誤り発見装置106と認識誤り修正装置107とを備える。
【0004】
図8に示す字幕システムの動作を次に説明する。スタジオ101内でアナウンサー102がニュース原稿を読み上げると、その音声(アナウンサー音声)103が音声認識装置104に入力され、該音声認識装置104でテキストデータ105に変換され、その変換されたテキストデータ105を出力する。この出力には、認識誤りのある文字列が含まれている場合があるため、認識誤り発見装置106に入力される。認識誤り発見装置106では、オペレータがテキストデータ105中の誤りを検出して指摘する。そして、その検出結果を基に別のオペレータが、認識誤り修正装置107で正しい文字列に修正する。修正後は、その修正結果のテキストデータを字幕としてリアルタイムに送出する(特許文献1参照)。
【0005】
ここで、前記した従来の字幕システムにおけるテキストデータの誤り修正手段では、認識誤り修正装置107でオペレータが行う1回の指摘する操作で、単語単位等による所定の単位でだけ文字列を選択するようになっている。
【0006】
【特許文献1】
特開2001−60192号公報(特許請求の範囲)
【0007】
【発明が解決しようとする課題】
しかし、前記したような、従来の認識誤り修正装置では、以下に示すような問題点が存在した。すなわち、認識誤り修正装置は、テキストデータの誤り修正を行う手段が、オペレータが画面の誤りに対して指摘する1回の操作では、単語単位等の所定の単位でだけ文字列を選択するようになっており、複数用意された音声認識出力単位の中から選択する形式にはなっていない。そのため、音声認識装置が誤りを含んだ文字列を複数生成してしまった場合、誤りを発見し、修正し、その修正の再確認の作業に時間がかかり、ひいては、番組映像に対する大幅な字幕遅れが生じることもある。
【0008】
また、音声認識装置を利用してリアルタイムで字幕を作成する場合、字幕の正確さと字幕提示までの時間にはトレードオフの関係にある。例えば、ニュース番組は、字幕の遅れより字幕の正確さが重要であり、また、スポーツ中継番組では、ニュース番組ほどの正確さは必要としない一方で、番組映像に対する字幕の遅れは致命的になる。
これから明らかなように、字幕に対して要求される正確さと遅れ許容時間は、番組に応じて異なるものであることが分かる。すなわち、字幕の正確さと提示までの時間を番組に応じて任意にコントロールすることができるようにすることは、字幕化システムにおいては非常に重要なことである。
【0009】
また、スポーツ中継番組では、観衆の声による背景雑音があり、実況アナウンサーや解説者の声を直接音声認識することができない。この理由により、スポーツ中継番組の字幕化を実現することは困難であった。
【0010】
よって本発明は、前記の問題点に鑑み創案されたもので、テキストデータ中の修正単位を切り換えることができ、出力までの時間を任意にコントロールすることができる文字データ修正装置、その方法及びそのプログラムを提供することにある。
【0011】
また、本発明の目的は、スポーツ中継等のように観衆の声による背景雑音がある番組の音声をリアルタイムで字幕化することができる字幕の生成方法を提供することにある。
【0012】
【課題を解決するための手段】
本発明に係る文字データ修正装置は、前記の目的を達成するために、以下のように構成した。すなわち、文字データ修正装置は、音声を音声認識手段によりテキストデータに変換して、前記音声と前記テキストデータとが一致しない不一致箇所が前記テキストデータに含まれた場合に修正する文字データ修正装置であって、前記音声認識手段により変換されたテキストデータを表示画面に表示する表示手段と、前記不一致箇所に含まれる修正対象文字の修正単位を切り換える修正単位切換手段と、前記表示画面に表示された前記テキストデータの前記不一致箇所を、前記修正単位切換手段によって切り換えた修正単位に対応する所定の操作により指摘したときに当該不一致箇所の選択を行う不一致箇所選択手段と、前記不一致箇所選択手段により選択された前記不一致箇所の内容に対応した修正を行った修正テキストデータを入力する修正テキストデータ入力手段と、この修正テキストデータ入力手段により入力された修正テキストデータを前記テキストデータに加えて修正付加テキストデータを生成するテキストデータ修正手段と、このテキストデータ修正手段で生成された修正付加テキストデータを出力する出力手段と、を備える構成とした。
【0013】
この構成によれば、テキストデータが表示手段により表示画面に表示されると、その表示画面に表示されているテキストデータについて、例えば、オペレータ等がその表示画面をタッチして指摘する不一致箇所に対しての1回の指摘操作で不一致箇所選択手段により選択する。このとき、あらかじめ、修正単位切換手段により1回の指摘操作で選択可能な不一致箇所の修正単位を切り換えて設定しておくことができる。そして、選択された不一致箇所についてテキストデータ修正手段により、テキストデータに修正を行った修正テキストデータを加えた修正付加テキストデータとして生成し、出力手段によりその修正付加テキストデータを出力する。なお、テキストデータに修正する箇所がなければ、そのままテキストデータとして出力され、また、修正する箇所が多く、修正テキストデータのみが出力される状態もありえる。
【0014】
なお、修正単位切換手段による修正単位の切り換えは、(a)文字単位、(b)形態素(単語)単位、(c)句読点を切れ目とする句単位、(d)話者の息継ぎを切れ目とする音声認識入力の発話単位、(e)句点を切れ目とする文単位等が考えられる。
【0015】
また、請求項2記載の本発明に係る文字データ修正装置は、前記文字データ修正装置において、前記出力手段によって出力されるまでに制限時間を設け、この制限時間を超えた場合に強制的に前記修正付加テキストデータを出力させる制限時間設定手段を設けたものである。
【0016】
この構成によれば、制限時間設定手段により、設定された制限時間を超えたら、テキストデータの修正が済んでいるか否かにかかわらず、出力手段を操作させてテキストデータ、修正テキストデータあるいは修正付加テキストデータを強制的に出力させる。
【0017】
さらに、請求項3記載の本発明に係る文字データ修正プログラムは、音声を音声認識手段によりテキストデータに変換して、前記音声と前記テキストデータとが一致しない不一致箇所が前記テキストデータに含まれた場合に修正する装置を以下に示す各手段により機能させる文字データ修正プログラムとした。
【0018】
すなわち、文字修正プログラムの各手段は、前記音声認識手段により変換されたテキストデータを表示画面に表示する表示手段、前記不一致箇所に含まれる修正対象文字の修正単位を切り換える修正単位切換手段、前記表示画面に表示された前記テキストデータの前記不一致箇所を、前記修正単位切換手段によって切り換えた修正単位に対応する所定の操作により指摘したときに当該不一致箇所の選択を行う不一致箇所選択手段、前記不一致箇所選択手段により選択された前記不一致箇所の内容に対応した修正を行った修正テキストデータを入力する修正テキストデータ入力手段、この修正テキストデータ入力手段により入力された修正テキストデータを前記テキストデータに加えて修正付加テキストデータを生成するテキストデータ修正手段、このテキストデータ修正手段で生成された修正付加テキストデータを出力する出力手段、前記出力手段によって出力されるまでに制限時間を設け、この制限時間を超えた場合に強制的に前記修正付加テキストデータを出力させる制限時間設定手段である。
【0019】
この構成によれば、この文字データ修正プログラムを機能させることで、修正単位切換手段により指摘された1回の操作で実行可能な修正単位を、あらかじめ複数用意しておき、その中から選択して設定すると共に、制限時間設定手段により、制限時間を越えた場合に強制的に修正付加テキストデータを出力させるように設定する。そして、表示手段によりテキストデータを表示画面上に表示させ、不一致箇所選択手段により、例えば、オペレータが手指でその表示画面をタッチすると、テキストデータの不一致箇所が選択される。そのため、修正テキストデータ入力手段により不一致箇所を修正して修正付加テキストデータとし、出力手段または制限時間設定手段で設定された制限時間により修正付加テキストデータを出力する。
【0020】
また、請求項4記載の本発明に係る文字データ修正方法は、音声を音声認識手段によりテキストデータに変換して、前記音声と前記テキストデータとが一致しない不一致箇所が前記テキストデータに含まれた場合に修正する文字データ修正方法であって、前記不一致箇所に含まれる修正対象文字の修正単位を切り換えて設定すると共に、前記テキストデータおよびそのテキストデータを修正した修正テキストデータを含む修正付加テキストデータを強制的に出力させる制限時間の設定を行なうステップと、前記音声認識手段により変換されたテキストデータを表示画面に表示するステップと、前記表示画面に表示された前記テキストデータの前記不一致箇所を、所定の操作により指摘したときに、前記修正単位に対応する不一致箇所を選択するステップと、選択された前記不一致箇所の内容に対応した修正を行った修正テキストデータを入力するステップと、入力された修正テキストデータを前記テキストデータに加えて前記修正付加テキストデータを生成するステップと、生成された修正付加テキストデータを出力するステップと、を含むこととした。
【0021】
このようにすることで、文字データ修正方法では、指摘された不一致箇所の1回の指摘する操作で実行可能な修正対象文字の修正単位を、予め用意されたさまざまな修正単位の中から選択して設定し、さらにテキストデータが出力されるまでの時間に制限を設け、その設定された制限時間を超えたら、テキストデータの修正が済んでいるか否かに関係なく、出力手段を介してテキストデータを強制的に出力させる状態で文字データの修正が可能になる。
【0022】
また、請求項5記載の本発明に係る字幕の生成方法は、外部より聴き取りされた音声を音声認識手段によりテキストデータに変換しそのテキストデータと前記音声とが一致しない不一致箇所を修正して、画面上の映像に対応する字幕を生成する字幕生成方法であって、前記不一致箇所に含まれる修正対象文字の修正単位を切り換えて設定すると共に、前記テキストデータおよびそのテキストデータを修正した修正テキストデータを含む修正付加テキストデータを強制的に出力させる制限時間の設定を行なうステップと、外部より聴取した雑音含有音声に対応する言葉をマイクロホンに向かってリスピークし、前記マイクロホンで電気信号に変換された音声として出力するステップと、前記リスピークして作成された前記音声を前記音声認識手段によりテキストデータに変換して出力するステップと、前記音声認識手段により変換されたテキストデータを表示画面に表示するステップと、前記表示画面に表示された前記テキストデータの前記不一致箇所を、所定の操作により指摘したときに、前記修正単位に対応する不一致箇所を選択するステップと、選択された前記不一致箇所の内容に対応した修正を行った修正テキストデータを入力するステップと、入力された修正テキストデータを前記テキストデータに加えて前記修正付加テキストデータを生成するステップと、生成された修正付加テキストデータを出力するステップと、を含むこととした。
【0023】
このようにすることで、字幕の生成方法では、例えばスポーツ中継等が開始されて、実況アナウンサーや解説者がマイクロホンに向かって話した雑音が含有された雑音含有音声を、リスピーカーが別の場所でスピーカー(通常、ヘッドホン)を通して聴き取り、リスピークすることで音声認識手段を介して音声をテキストデータとする。したがって、リスピークされた音声だけが音声認識装置で音声認識されてテキストデータに変換される。音声認識手段で変換し表示画面に表示されたテキストデータは、このテキストデータに音声と一致しない不一致箇所が含まれていることもある。テキストデータ中に不一致箇所がある場合、不一致箇所を例えばオペレータがタッチすることで選択し、修正して修正テキストデータとしてテキストデータに加え、修正付加テキストデータとして出力する。
【0024】
【発明の実施の形態】
以下、図面を参照して、本発明の実施の形態を詳細に説明する。
図1は、本発明を適用した字幕作成システム1の全体構成図である。本例では、サッカー競技場よりサッカーの試合をスポーツ中継する場合を一例としており、サッカー競技場11内にアナウンスブース12が設置されている。そのアナウンスブース12内には実況アナウンサー13や解説者14等が入り、各人に用意されたマイクロホン15を使用して実況及び解説を行うもので、そのマイクロホン15を通した音声情報はリアルタイムにリスピーキングブース21に送られる。
【0025】
図1に示すように、リスピーキングブース21内には、ヘッドホンスピーカ23、マイクロホン24、表示手段25等が設置されているとともに、リスピーカー22が入る。リスピーカー22は、サッカー競技場11のアナウンスブース12内でマイクロホン15が集音した実況アナウンサー13や解説者14の音声をヘッドホンスピーカ23で聴き、その聴いた声に対応する内容の言葉をマイクロホン24に向かって話す(以下、これを「リスピーク」という)役割を受け持つ。
【0026】
表示手段25は、液晶ディスプレイまたはCRT等のモニタであり、文字や画像を表示可能な表示画面を有している。なお、マイクロホン24で集音されて電気信号に変換された音声信号は、後記する音声認識装置(音声認識手段)30に入力され、その音声認識装置30でテキストデータに変換された後、字幕生成ブース31に送られる。
【0027】
字幕生成ブース31には、音声認識装置30より送られて来るテキストデータを表示する表示画面を有した液晶ディスプレイまたはCRT等のモニタが設置されていると共に、そのテキストデータ中に音声と不一致となる不一致箇所(以下、「誤り」という)があるとき、それを修正する文字データ修正装置50が設けられている。
また、字幕生成ブース31内には、文字データ修正装置50を操作するためのオペレータ32が入り、テキストデータ中に誤りがあるとき、その誤りを指摘して修正を行わせる。なお、モニタの表示画面には、リスピークブース21内で表示手段25の表示画面に表示されている画像と同じ画像が同時に表示される。もちろん、サッカー競技場11の映像も表示されている。
【0028】
図2は、図1に示した字幕作成システム1のさらに具体的な構成を示すブロック図である。図2に示すように、アナウンスブース12とリスピークブース21と字幕生成ブース31との間は、データ通信ライン10で接続されている。なお、データ通信ライン10は、有線である場合と無線である場合とがあり、環境に応じて選択される。
【0029】
現場音声データ入力・出力手段16は、アナウンスブース12に設置されており、マイクロホン15が集音した実況アナウンサー13や解説者14の声を観客の声と一緒になった(雑音含有)音声として入力し、これを音声調整した後、リスピークブース21に向けて出力する。
【0030】
リスピーク音声データ入力・出力手段26は、リスピークブース21内に設置されており、リスピーカー22が使用するヘッドホンスピーカ23及びマイクロホン24を有する。また、リスピーク音声データ入力・出力手段26は、アナウンスブース12からの音声データをリスピーカー22が使用するヘッドホンスピーカ23で再生する機能と、リスピーカー22がマイクロホン24に向かって話すと、マイクロホン24が集音したリスピーカー22の声を音声として入力し、これを音声認識装置30に向けて出力する機能を有する。音声認識装置30は、入力された音声データをテキストデータに変換し、その変換したテキストデータを文字データ修正装置50に向けて出力する。
【0031】
字幕生成ブース31の文字データ修正装置50は、テキストデータ入力手段51、認識誤り削除修正手段52、操作手段53、タイマー回路54、制御手段55、記憶手段56、表示手段57、出力手段58、字幕生成出力手段59を備えている。
テキストデータ入力手段51は、音声認識装置30で変換されたテキストデータを入力するためのものである。そして、このテキストデータ入力手段51により入力されたテキストデータは、表示手段57を介して表示画面に表示される。なお、出力手段58により表示画面に表示されるテキストデータの一例を図6および図7に示す。
【0032】
認識誤り削除修正手段52は、音声認識装置30でテキストデータに変換された認識文字の中に誤りがあった場合に、オペレータ32(図1参照)が表示画面上の誤り箇所をタッチすることで選択する不一致箇所指摘手段としての誤り指摘手段52aと、誤っている文字を修正するテキストデータ修正手段52bとを有する。
【0033】
誤り指摘手段(不一致箇所選択手段)52aは、オペレータ32(図1参照)が表示画面を手指あるいはペンにより接触(タッチ)することで誤り箇所を選択するものである。なお、誤り指摘手段52aは、マウスあるいはキーボードを操作することで表示画面上のカーソルにより誤り箇所を選択する構成としても構わない。
【0034】
テキストデータ修正手段52bは、誤り指摘手段52aで指摘(選択)された誤り箇所をオペレータ32(図1参照)が正しい文字列に修正を行うものである。このテキストデータ修正手段52bでは、操作手段53のキーボードから入力されるキーコードを入力し、例えば、既知の技術である「かな漢字変換」等により日本語文字を入力する。
【0035】
操作手段(修正テキストデータ入力手段)53は、オペレータ32が入力操作を行うためのものであり、例えば、キーボード、マウス、タッチパネル等である。
タイマー回路54は、後記する制限時間設定手段55aに入力されるクロック信号を出力している。このタイマー回路54からのクロック信号は、表示画面に時刻情報として表示するようにしても構わない。
【0036】
制御手段55は、ここでは、制限時間を設定するための前記制限時間設定手段55aと、修正単位を設定するための修正単位設定手段(修正単位切換手段)55bとを備えている。
【0037】
制限時間設定手段55aは、出力手段58の動作を手動で操作させる形態と、制限時間を設けて制限時間になったら出力手段58を強制的に起動させる形態とを選択することができるようにするものである。この制限時間設定手段55aは、例えば、図5に画面表示例として示しているように、表示手段57の表示画面に表示される修正形態<1>のタイマー設定の中から選択される。
【0038】
すなわち、制限時間設定手段55aでは、表示画面上に表示される設定画面から、まずタイマー設定の「有り」、「無し」のボタンを選択することで設定される。なお、ここでのボタンは、操作手段53に用意されている、オペレータ32が操作するキーボード、マウス、あるいはタッチパネルを介して選択することが可能であり、これらのボタンの選択については、以下の説明においても同じである。ここで、「無し」を選択した場合は、出力手段58の起動を制限時間設定手段55aの動作によらずに、図6で示すように、手動で「送出」ボタンをクリックまたはタッチする操作により出力される形態に設定される。
【0039】
これに対して、「有り」を選択した場合は、制限時間設定手段55aで設定される制限時間を設け、制限時間になったら強制的に出力手段58を起動させる形態に設定される。この「有り」の設定時には制限時間をキーボードによって数字で入力すると、その数字が設定された制限時間(秒)になる。
なお、この制限時間の設定では、オペレータ32が選択した字幕を修正するのにある程度の時間を要するが、表示される字幕と画像との関係を重視した制限時間として設定される。
【0040】
修正単位設定手段(修正単位切換手段)55bは、オペレータ32が画面上をタッチして誤り箇所を指摘する1回の動作で選択できる文字の範囲を設定するものである。この修正単位設定手段55bは、あらかじめ設定されている修正単位の種類から選択して設定するものであり、番組の性質(用途)等に応じて選択し、設定することができる。この修正単位設定手段55bの設定は、例えば図5に画面表示例として示しているように、表示手段57の表示画面に修正形態<2>として表示されるボタン「文字」、「形態素」、「句」、「発話」、「文」の中から選択され、また選択が終了したら画面上の「決定」のボタンを選択することで設定される。
【0041】
修正単位設定手段55bにより設定される「文字」、「形態素」、「句」、「発話」、「文」の具体的な例を図7に示す。今、音声認識されて表示手段57により表示画面(モニタ)に表示されたテキストデータが、図7の表示例のように、「おはようございます。ソルトレークシティーオリンピック大会5日目,日本は2つのメダルです。日本時間のけさ五時に行われたスピードスケートで,男子誤訳メートルの二回目で,清水宏保選手が,銀メダルを獲得しました。」であるとした場合、各ボタンの修正形態(修正単位)は、「/」で区切られる単位でオペレータ32が画面をタッチすると選択される。
【0042】
オペレータ32が、「文字」のボタンを選択した場合は、図7(a)に示すように、文字単位で誤り削除・修正を行う形態になる。すなわち、同図中に「/」で区切られた文字単位で誤り削除・修正を行う。
また、オペレータ32が、「形態素」のボタンを選択した場合は、図7(b)に示すように、形態素(単語)単位で誤り削除・修正を行う形態になる。すなわち、同図中に「/」で区切られた単語単位で誤り削除・修正を行う。
また、オペレータ32が、「句」のボタンを選択した場合は、図7(c)に示すように、句単位で誤り削除・修正を行う形態になる。すなわち、同図中に「/」で区切られた句読点を切れ目とする単位で誤り削除・修正を行う。
【0043】
また、オペレータ32が、「発話」のボタンを選択した場合は、図7(d)に示すように、話者の息継ぎを切れ目とする音声認識入力の発話単位で誤り削除・修正を行う形態になる。すなわち、同図中に「/」で区切られた話者の息継ぎを切れ目とする単位で誤り削除・修正を行う。
また、オペレータ32が、「文」のボタンを選択した場合は、図7(e)に示すように、句点を切れ目とする文単位で誤り削除・修正を行う形態になる。すなわち、同図中に「/」で区切られた句点を切れ目とする単位で誤り削除・修正を行う。
【0044】
なお、これらの修正単位では、一般に、図7(a)から図7(e)に向かうに従って、1単位の長さが長くなり、単位が短ければ認識誤りの受信の直後に瞬時に削除できるというメリットがある。また、例えば図7(c)や図7(d)を単位とした場合には、前後の文脈に対してあまり大きな違和感を与えずに削除できる場合が多いというメリットがある。
【0045】
また、ここでは、修正単位設定手段55bにより設定された単位で、図6に示すように、選択された文字が、全体的な表示面の下方に示される「修正前」の表示欄に表示されると共に、正しく修正された文字についても「修正後」との表示欄に表示されるように設定されている。
【0046】
記憶手段56は、ハードディスク、一般的なメモリで構成され、テキストデータあるいは修正テキストデータおよび、テキストデータに修正テキストデータを加えた修正付加テキストデータを記憶しておくものである。
【0047】
表示手段57は、液晶ディスプレイまたはCRT等のモニタであり、文字や画像を表示可能な表示画面を有している。この表示画面上に音声認識装置30でテキストデータに変換された文字列や、オペレータ32が修正を行った文字列等が表示される。
【0048】
出力手段58は、テキストデータあるいは修正テキストデータおよび、テキストデータに修正テキストデータを加えた修正付加テキストデータを、操作手段53の操作または制限時間設定手段55aからの信号に応答して字幕生成出力手段59に送る機能を有するものである。
【0049】
字幕生成出力手段59は、出力手段58からのテキストデータ、修正テキストデータあるいは修正付加テキストデータを、テレビ画面(図示せず)上に字幕スパーとして表示する文字列を字幕文章単位に作成し、出力するものである。なお、この、字幕生成出力手段59の構成は、出力手段58が兼ねるか、あるいは、出力手段58から出力した他の装置が備える構成としてもよい。
【0050】
図3は、本実施の形態の字幕作成システム1における字幕表示の過程を模式的に示した説明図で、図1及び図2と同一のハードウエア要素には同一の符号を付してある。図3を参照しながら、本実施の形態に係る字幕作成システム1の動作を、スポーツ中継番組を一例として概略的に説明する。
【0051】
一般に、スポーツ中継番組51の音声は、観衆の背景雑音があること等の理由により、マイクロホン15を通して得られる実況アナウンサー13や解説者14の声は、直接音声認識することができない。そこで、リスピークブース21内にリスピーカー22を配置し、アナウンスブース12から現場音声データ入力・出力手段16を介して送られて来る音声データをヘッドホンスピーカ23でリスピーカー22が聴き取り、その内容に対応した言葉をマイクロホン24に向かってリスピークする。この場合、リスピークされた音声には背景雑音は含まれないので、リスピークされた音声だけが音声認識装置30で音声認識されてテキストデータに変換される。
【0052】
そして、音声認識装置30で変換されたテキストデータは、文字データ修正装置50の認識誤り削除修正手段52に入力される。認識誤り削除修正手段52では、テキストデータに変換不能なデータが含まれていた場合、リスピーカー22に言い直しを指示し、修正可能な誤りがあった場合はオペレータ32が認識誤りを削除・修正し、その結果として出力されるテキストデータをリアルタイムで字幕出力する。ここでのテキストデータの表示及び修正途中の表示は、文字データ修正装置50における表示手段57の表示画面とリスピークブース21内における表示手段25の表示画面の、両方の表示画面に表示され、オペレータ32等はその表示を見ながら修正等の操作作業を行う。
【0053】
なお、文字データ修正装置50における認識誤り削除修正手段52のオペレータ32の操作と字幕の送出方法には、以下の(1)〜(3)に示すバリエーションがある。
(1)音声認識結果に誤りがあった場合、オペレータ32は、その誤りを削除し、そのまま字幕にする。
(2)音声認識結果に誤りがあった場合、オペレータ32は、その誤りを削除する。リスピーカー22が音声認識可能な別の言い回しで同意の内容を言い換えること等により正しい音声認識結果を出力させる。
(3)音声認識結果に誤りがあった場合、オペレータ32は、その誤りを発見し、それを修正して字幕にする。
【0054】
ここで、前記(1)と(2)の特徴としては、オペレータ32が誤りの文字列の削除のみを行えば良く、修正の操作は必要ない点が挙げられる。また、(1)の特徴としては、字幕の時間遅れが最小限にできるメリットがある一方で、脱落してしまう文字が発生してしまう問題がある。(2)の特徴としては、正確な字幕を出力できる一方で、状況によって字幕送出の時間遅れが大きくなる可能性がある。(3)の特徴としては、正確な字幕を出力できる一方で、認識誤りがバースト的に発生した場合には、オペレータ32の誤り修正が追いつかない可能性がある。前記の使用法は、例えばスポーツ中継は、字幕の時間遅れが致命的になるケースが多いので、基本的に(1)の方式を選択する等、番組に応じて選択することが望ましい。
【0055】
続いて、図6に「句単位モード」で稼働中の文字データ修正装置50における表示手段57の表示画面(モニタ画面)上の表示例を示す。音声認識結果のうち、下線で示した「果敢早朝にもかかわらず、」には誤認識が含まれており、正しくは「2日間早朝にもかかわらず、」である。句単位モードで動作しているときは、オペレータ32の1回の指摘する操作において句読点で挟まれた単位の文字列が一度に選択される。そして、オペレータ32がこれを削除し、リスピーカー22が言い直すことによって誤りを修正するか、あるいはオペレータ32がキーボードにより修正することにより、正しい字幕を作成する。
【0056】
図6の状態は、「果敢早朝にもかかわらず、」にポイントが合わせられて、これが「修正前」の欄内に表示され、これを修正する場合は、「修正後」の欄に正しい文字列、すなわち「2日間早朝にもかかわらず、」を新たに入力させる。また、次の「大越を出して誠意しました」という部分も誤認識であるが、これはオペレータ32がこれを削除し、リスピーカー22が言い直すことによっても「大声を出して声援しました」という正しい字幕を送出できる。さらに、ポイントで指定された文字列が修正後の欄に「2日間早朝にもかかわらず、」として表示される。
【0057】
また、ポイント合わせされた文字列を削除したい場合は、図6のモニタ画面表示例の表示画面に表示されている「削除」ボタンを選択することによって文字列を削除することができ、そしてリスピーカー22が言い直すことによって誤りを修正した文字列を提示することができ、「挿入」ボタンを選択すると文字列の前または後に新たな文字列を挿入することができる。
【0058】
さらに、「置換」ボタンを選択すると、「果敢早朝にもかかわらず、」という文字列を「2日間早朝にもかかわらず、」という文字列と置換することができる。次の「大越を出して誠意しました」という部分も誤認識であるが、オペレータ32がこれを削除し、リスピーカー22が言い直すことによっても「大声を出して声援しました」という正しい字幕が生成されるようにすることができる。また、修正後は「送出」ボタンを選択すると、出力手段58が起動されて、その修正を終えた文字列を字幕として送出させることができる。
【0059】
音声認識装置30から認識誤り削除修正手段52に入力された文字列をオペレータ32がチェックし、その結果に誤りが含まれていない場合には、その文字列は速やかに出力されるべきである。そこで、誤りがない場合は、操作手段53を介するオペレータ32のマニュアル操作(テイク)、すなわち本例では「送出」ボタンを選択する等して出力手段58を起動させて送出するか、あるいは制限時間設定手段55aで設定される一定のタイムアウト時間を設けて、この時間を超えたとき自動的に出力手段58を起動させて送出されるようにする。
【0060】
次に、図4を参照(適宜図1及び図2参照)して、本実施の形態によるスポーツ中継する場合を一例として、さらに具体的な動作について説明を行う。
図4は、図1、図2、図3に示した字幕表示の過程を、音声入力からリスピーク−音声認識−字幕出力にわたって動作するフローチャートの形態で示したものである。また、以下の説明では、文字データ修正装置50における表示手段57の表示画面とリスピークブース21における表示手段25の表示画面には、通常は同じものが表示されているものとする。
【0061】
手順1(設定処理):字幕放送を開始するに先立ち、字幕生成ブース31内でオペレータ32が操作手段53を介して、表示手段57の表示画面上に設定メニューを表示させる。ここでの表示は、例えば図5に画面表示例として示す設定画面、すなわち修正形態<1>と修正形態<2>を設定する画面が表示される。そして、オペレータ32は、まず設定メニュー画面の修正形態<1>において、タイマーの設定を行う(ステップS1)。
【0062】
すなわち、タイマー設定の「有り」、「無し」を選択する。「無し」を選択した場合は、出力手段58の動作を制限時間設定手段55aによらずに手動で操作させる形態が選ばれ、「有り」を選択した場合は、制限時間設定手段55aによる制限時間を設けて、制限時間になったら出力手段58を強制的に起動させる形態が選ばれる。
【0063】
続いて、同じ設定メニュー画面の修正形態<2>において、修正単位の設定を行う(ステップS2)。また、選択が完了したら、表示画面上の「決定」ボタンを選択すると、これらの選択が決定され、これが記憶手段56に上書き保存され、以後、更新されるまで、この設定が有効になる。そして、放送が開始されるのを待つ(ステップS3)。
【0064】
手順2(リスピーク処理):放送が開始されると、アナウンスブース12内での実況アナウンサー13や解説者14によるアナウンスが開始される(ステップS4)。その声はマイクロホン15を通して電気信号に変換された後、現場音声データ入力・出力手段16に入力され、さらにリスピークブース21内のリスピーク音声データ入力・出力手段26に送られ、リスピーカー22が装着しているヘッドホンスピーカ23等で再生される。
【0065】
一般に、ここで再生された音声の中には背景雑音が含まれている。そこで、リスピーカー22は、ヘッドホンスピーカ23を介して聴いた声の内容に対応する言葉をマイクロホン24に向かってリスピークする(ステップS5)。ここでリスピーカー22がリスピークする言葉は、ヘッドホンスピーカ23を介して聴いた言葉と全く同一でなくても内容が概略一致していれば良い。例えば、余り長い言い回しで、字幕を生成するのにふさわしくない言葉は、このリスピーカー22によるリスピークによって修正される。
【0066】
また、一般には、リスピーカー22は、実況アナウンサー13と解説者14の言葉を1人で聞き、リスピーカー22が1人でリスピークすることになるが、複数のリスピーカーを用意して、複数人でリスピークするようにしてもよい。
【0067】
さらに、リスピーカー22がリスピークしてマイクロホン24に入力された声は、該マイクロホン24で電気信号に変換され、リスピーク音声データ入力・出力手段26を介して音声認識装置30に音声データとして送られる。この音声認識装置30に入力された音声データには、リスピーカー22の声だけが含まれ、背景雑音等は含まれていない。
【0068】
手順3(音声認識処理):音声認識装置30に音声データが送られると、音声認識装置30での音声認識が開始され、音声データがテキストデータに変換される(ステップS6)。その変換されたテキストデータは文字データ修正装置50のテキストデータ入力手段51に送られ、これが文字データ修正装置50における表示手段57の表示画面及びリスピークブース21における表示手段25の表示画面に表示される(ステップS7)。
【0069】
手順4(文字データ修正処理):テキストデータ入力手段51より入力されたテキストデータは、制御手段55を経由して認識誤り削除修正手段52に送られ、この認識誤り削除修正手段52において認識誤りの削除・修正処理を行う(ステップS8)。ここでは、まずテキストデータに変換不能な音声データがあった場合は、リスピーカー22に言い直しを指示し、修正可能な誤りがあった場合には誤り指摘手段52aによりテキストデータ中の誤りの箇所が指摘される。
【0070】
この誤りの箇所は、オペレータ32が表示画面を見ながらテキストデータ修正手段52bを介して修正が行われる。このオペレータ32による修正は、操作手段53を介して制御手段55経由でテキストデータ修正手段52bを操作することにより行われる。また、ここでの修正は、予め修正単位設定手段55bにより設定してある修正形態及び制限時間設定手段55aにより設定してある修正形態(タイマー設定、修正単位)に従って修正される。
【0071】
手順5(字幕生成出力処理):文字データ修正処理中は、修正が終了(誤認識が無い場合も含む)して「送出」ボタン(図6参照)が選択されたか否かが制御手段55で監視される(ステップS9)。「送出」ボタンが選択された場合(ステップS9;yes)は、制御手段55の制御で出力手段58が起動され、認識誤り削除修正手段52を経由したテキストデータは、修正単位設定手段55bで設定された修正単位毎に字幕生成出力手段59に送られ、テレビ画面上の字幕として出力される(ステップS11)。
【0072】
また、「送出」ボタンが選択されない場合(ステップS9;no)でも、制御手段55では、制限時間設定手段55aにより設定された制限時間になったか否かを監視し(ステップS10)、制限時間となったタイムオーバーの場合(ステップS10;yes)は、制御手段55の制御で出力手段58が起動される。出力手段58が起動されると、修正単位設定手段55bで設定された修正単位の未だ修正の終わっていないテキストデータが字幕生成出力手段59に送られ、テレビ画面上の字幕として出力される(ステップS11)。なお、制限時間になっていない場合(ステップS10;no)は、ステップS8へ戻って、認識誤りの削除・修正処理を行う。すなわち、ここでは字幕の精度よりも提示までの時間を優先する。このステップS1からステップS11までの処理動作は放送が終了するまでの間、繰り返し行われ、放送が終了すると終わる。
【0073】
このように、本実施の形態では、次のような効果が期待できる。
スポーツ中継等において、背景に雑音を含む実況アナウンサー13や解説者14の声をリスピーカー22が聴き、その声に対応する内容の言葉をリスピーカー22がマイクロホン24に向かってリスピークし、背景雑音のない音声データを音声認識装置30に入力しているので、音声認識装置30における音声認識率が向上する。また、この認識率の向上によって字幕の精度と提示までの時間の短縮化が図れ、字幕の品質を保つことができる。なお、リスピークは1人のリスピーカー22で対応可能であり、さらに音声認識装置30で音声認識されて変換されたテキストデータの誤りを修正するオペレータ32の人数も、音声認識装置30での音声認識が高いことから1人で対応可能になる。
【0074】
また、文字データ修正装置50において、オペレータ32による1回の指摘する操作で選択できる文字データの修正対象文字の修正単位(修正範囲)を、修正単位設定手段55bの設定により、例えば(a)文字単位、(b)形態素(単語)単位、(c)句読点を切れ目とする句単位、(d)話者の息継ぎを切れ目とする音声認識入力の発話単位、(e)句点を切れ目とする文単位等、さまざまな単位に設定することができるので、オペレータ32による1回の指摘する操作で実行可能な誤り削除・修正作業の量を調整することができる。これにより、番組毎等で異なる要求(字幕に含まれる文字の正確さや遅れ時間等)に応じた字幕の品質を保つことができる。
【0075】
さらに、文字データ修正装置において、制限時間設定手段55aの設定により、入力された文字列(文字単位)が出力されるまでの時間に制限を設け、その制限時間を超えた場合に自動で強制的に文字列を出力するようにしている。これにより、番組毎等で異なる要求(字幕に含まれる文字の正確さや遅れ時間等)に応じた字幕の品質を保つことができる。
【0076】
【発明の効果】
請求項1記載の発明によれば、オペレータによる1回の指摘する操作で選択できる文字データの修正対象文字の修正単位(修正範囲)を、修正形態切り換え手段の設定により、予め用意されるさまざまな修正単位の中から設定することができるので、オペレータによる1回の指摘する操作で実行可能な誤り削除・修正作業の量を、選択した修正単位によって調整することができる。これにより、番組毎等に異なる要求(字幕に含まれる文字の正確さや遅れ時間等)に応じた字幕の品質を保つことができる。
番組や用途に応じた修正単位の設定を修正形態切り換え手段で行うと、番組や用途毎に異なる要求(字幕に含まれる文字の正確さや遅れ時間等)に応じた字幕の品質を保つことができる。
【0077】
請求項2記載の発明によれば、入力された文字列(文字単位)が出力されるまでの時間に制限を設け、その制限時間を超えた場合に強制的に文字列を出力するようにしているので、異なる要求(字幕に含まれる文字の正確さや遅れ時間等)に応じた字幕の品質を保つことができる。
したがって、例えばスポーツ中継番組のように、正確な文字を提示するよりも提示までの時間を優先させたいとする場合には、設定時間を短くし、文字の誤りよりも提示される時間を優先させる。反対に正確さを優先する場合には、設定時間を長くし、文字の誤りを修正する時間を多く取って文字の正確さを優先させることができる。すなわち、字幕の精度と提示までの時間を番組の性質(用途)等に応じて任意にコントロールすることが可能になる。
【0078】
請求項3記載の発明によれば、オペレータによる1回の指摘する操作で選択できる文字データの修正対象文字の修正単位(修正範囲)を、予め用意されるさまざまな修正単位の中から設定することができるので、オペレータによる1回の指摘する操作で実行可能な誤り削除・修正作業の量を、選択した修正単位によって調整することができる。また、入力された文字列(文字単位)が出力されるまでの時間に制限を設け、その制限時間を超えた場合に自動で強制的に文字列を出力するようにすることができる。これらにより、番組毎等に異なる要求(字幕に含まれる文字の正確さや遅れ時間等)に応じた字幕の品質を保つことができる。
【0079】
請求項4記載の発明によれば、オペレータによる1回の指摘する操作で選択できる文字データの修正対象文字の修正単位(修正範囲)を、予め用意されるさまざまな修正単位の中から設定することができるので、オペレータによる1回の指摘する操作で実行可能な誤り削除・修正作業の量を、選択した修正単位によって調整することができる。また、入力された文字列(文字単位)が出力されるまでの時間に制限を設け、その制限時間を超えた場合に自動で強制的に文字列を出力するようにすることができる。これらにより、番組毎等に異なる要求(字幕に含まれる文字の正確さや遅れ時間等)に応じた字幕の品質を保つことができる。
【0080】
請求項5記載の発明によれば、スポーツ中継等において、背景に雑音を含む実況アナウンサーや解説者の声をリスピーカーが聴き、その声に対応する内容の言葉をリスピーカーがマイクロホンに向かってリスピークし、背景雑音のない音声データを音声認識装置に入力させて音声認識を行わせるようにしているので、音声認識装置における音声認識率が向上する。したがって、この認識率の向上によって字幕の精度と提示までの時間の短縮が図れ、字幕の品質を保つことができる。また、リスピークは1人のリスピーカーで対応可能であり、さらに音声認識装置で音声認識されて変換されたテキストデータの誤りを修正するオペレータの人数も、音声認識装置での音声認識が高いことから1人で対応可能になる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る字幕作成システムの全体構成図である。
【図2】本発明の実施の形態に係る字幕作成システムのさらに具体的な構成を示すブロック図である。
【図3】本発明の実施の形態に係る字幕作成システムにおける字幕表示過程を模式的に示した説明図である。
【図4】本発明の実施の形態に係る字幕作成システムの主たる動作を示すフローチャートである。
【図5】本発明の実施の形態に係る字幕作成システムにおいて設定メニュー表示時における表示画面の一例を示す図である。
【図6】本発明の実施の形態に係る字幕作成システムにおいて文字修正時における表示画面上の一表示例を示す図である。
【図7】本発明の実施の形態に係る字幕作成システムにおける文字修正形態の説明図である。
【図8】従来の字幕の作成装置における字幕表示過程を模式的に示した説明図である。
【符号の説明】
1…字幕作成システム
10…データ通信ライン
12…アナウンスブース
15…マイクロホン
16…現場音声データ入力・出力手段
21…リスピーキングブース
23…ヘッドホンスピーカ
24…マイクロホン
25…表示手段(モニタ)
30…音声認識装置(音声認識手段)
31…字幕生成ブース
50…文字データ修正装置
51…テキストデータ入力手段
52…認識誤り削除修正手段
52a…誤り指摘手段(不一致箇所選択手段)
52b…テキストデータ修正手段
53…操作手段(修正テキストデータ入力手段)
54…タイマー回路
55…制御手段
55a…制限時間設定手段
55b…修正単位設定手段(修正単位切換手段)
56…記憶手段
57…表示手段
58…出力手段
59…字幕生成出力手段[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a character data correction device for correcting characters converted from voice to text data, a method and a program thereof, and a subtitle generation method.
[0002]
[Prior art]
At present, there is an extremely high demand for subtitles in the sound of television programs, and these are already being implemented gradually. 2. Description of the Related Art Conventionally, when converting subtitles, a speech recognition device is used to correct an error in character data (hereinafter, referred to as “text data”) based on a recognition result recognized by the speech recognition device, and then output on a television screen. The audio and the subtitles to be displayed are sent out in a timely manner so as to be synchronized, and the subtitles can be converted in real time (for example, see Patent Document 1).
[0003]
FIG. 8 is a schematic diagram schematically showing a process of substituting audio with a subtitle generation system used in a conventional television broadcast news program. The captioning system in FIG. 8 includes a
[0004]
Next, the operation of the subtitle system shown in FIG. 8 will be described. When the announcer 102 reads out a news manuscript in the
[0005]
Here, the error correction means of the text data in the conventional caption system described above selects a character string only in a predetermined unit such as a word unit by one operation pointed out by the operator in the recognition
[0006]
[Patent Document 1]
JP 2001-60192 A (Claims)
[0007]
[Problems to be solved by the invention]
However, the conventional recognition error correction device as described above has the following problems. In other words, the recognition error correcting apparatus is configured such that the means for correcting the error of the text data selects a character string only in a predetermined unit such as a word unit in one operation in which the operator points out an error on the screen. Therefore, the format is not selected from among a plurality of prepared speech recognition output units. Therefore, if the speech recognition device generates multiple error-containing character strings, it takes time to find and correct the errors, and to reconfirm the correction, resulting in a large subtitle delay for the program video. May occur.
[0008]
Also, when subtitles are created in real time using a voice recognition device, there is a trade-off between subtitle accuracy and time until subtitle presentation. For example, in a news program, the accuracy of subtitles is more important than the delay of subtitles, and in sports broadcast programs, the accuracy of subtitles is not as important as news programs, but the delay of subtitles for program video is fatal. .
As is clear from the above, it can be seen that the accuracy required for the subtitles and the allowable delay time differ depending on the program. That is, it is very important in a captioning system to be able to arbitrarily control the accuracy of captions and the time until presentation in accordance with a program.
[0009]
Also, in sports broadcast programs, there is background noise due to the audience's voice, and it is not possible to directly recognize the voice of a live broadcast announcer or commentator. For this reason, it has been difficult to realize subtitles for sports broadcast programs.
[0010]
Accordingly, the present invention has been made in view of the above-described problems, and it is possible to switch a correction unit in text data and arbitrarily control a time until output, a character data correction device, a method thereof, and a method thereof. To provide a program.
[0011]
It is another object of the present invention to provide a method for generating captions that can convert the sound of a program having background noise caused by the audience's voice, such as a sports broadcast, into captions in real time.
[0012]
[Means for Solving the Problems]
A character data correction device according to the present invention has the following configuration to achieve the above object. That is, the character data correction device converts the voice into text data by voice recognition means, and corrects when the text data includes a mismatched portion where the voice does not match the text data. A display unit that displays the text data converted by the voice recognition unit on a display screen; a correction unit switching unit that switches a correction unit of a correction target character included in the mismatched portion; and a display unit that is displayed on the display screen. When the mismatched portion of the text data is indicated by a predetermined operation corresponding to the correction unit switched by the correction unit switching unit, the mismatched portion is selected by the mismatched portion selection unit and the mismatched portion selection unit. Input the corrected text data corrected according to the content of the mismatched portion Correct text data input means, text data correction means for adding correction text data input by the correction text data input means to the text data to generate correction additional text data, and correction generated by the text data correction means. Output means for outputting additional text data.
[0013]
According to this configuration, when the text data is displayed on the display screen by the display means, for the text data displayed on the display screen, for example, an operator or the like touches the display screen to indicate a mismatched point. The selection is made by the non-coincidence point selecting means in every single pointing operation. At this time, it is possible to previously set the correction unit of the mismatched portion which can be selected by one pointing operation by the correction unit switching means. Then, the selected non-coincidence portion is generated as corrected additional text data by adding corrected text data to the text data by the text data correcting unit, and the output unit outputs the corrected additional text data. If there is no portion to be corrected in the text data, it is output as it is as text data, and there are many portions to be corrected, and only the corrected text data may be output.
[0014]
The switching of the correction unit by the correction unit switching means is performed by (a) a character unit, (b) a morpheme (word) unit, (c) a phrase unit having a punctuation mark as a break, and (d) a breather of a speaker as a break. An utterance unit of the speech recognition input, (e) a sentence unit having a punctuation as a break, and the like can be considered.
[0015]
Further, in the character data correction device according to the present invention as set forth in claim 2, in the character data correction device, a time limit is provided until the data is output by the output means, and when the time limit is exceeded, the character data correction device is forcibly set. A time limit setting means for outputting the modified additional text data is provided.
[0016]
According to this configuration, when the time limit set by the time limit setting unit is exceeded, regardless of whether the text data has been corrected or not, the output unit is operated to operate the text data, the corrected text data, or the correction addition. Force output of text data.
[0017]
Further, in the character data correction program according to the third aspect of the present invention, a voice is converted into text data by voice recognition means, and a mismatch portion where the voice does not match the text data is included in the text data. In this case, a character data correction program that causes the device to be corrected in each case to function by the following means is used.
[0018]
That is, each means of the character correction program includes a display means for displaying text data converted by the voice recognition means on a display screen, a correction unit switching means for switching a correction unit of a correction target character included in the mismatched portion, and the display A non-coincidence point selecting means for selecting the non-coincidence point when the non-coincidence point of the text data displayed on the screen is indicated by a predetermined operation corresponding to the correction unit switched by the correction unit switching means; Correction text data input means for inputting correction text data corrected according to the content of the mismatched portion selected by the selection means, and adding the correction text data input by the correction text data input means to the text data. Text data correction method that generates correction additional text data Output means for outputting the corrected additional text data generated by the text data correcting means; providing a time limit until the corrected additional text data is output by the output means, and forcing the corrected additional text data when the time limit is exceeded. Is a time limit setting means for outputting a time limit.
[0019]
According to this configuration, by causing the character data correction program to function, a plurality of correction units that can be executed by one operation pointed out by the correction unit switching unit are prepared in advance, and selected from those. In addition to the setting, the time limit setting means is configured to forcibly output the corrected additional text data when the time limit is exceeded. Then, the text data is displayed on the display screen by the display means, and when the operator touches the display screen with his / her finger, for example, the mismatched part selection means selects the mismatched part of the text data. Therefore, the mismatched portion is corrected by the corrected text data input means to obtain corrected additional text data, and the corrected additional text data is output according to the time limit set by the output means or the time limit setting means.
[0020]
In the character data correcting method according to the present invention, a voice is converted into text data by a voice recognition unit, and a non-coincidence point where the voice does not match the text data is included in the text data. A character data correction method for correcting a case where a correction unit of a correction target character included in said mismatched portion is switched and set, and said additional text data including said text data and corrected text data obtained by correcting said text data. Setting a time limit for forcibly outputting the text data, displaying the text data converted by the voice recognition means on a display screen, and setting the mismatched portion of the text data displayed on the display screen to: When pointed out by a predetermined operation, a mismatched portion corresponding to the correction unit is selected. Inputting the corrected text data corrected according to the content of the selected mismatched portion, and generating the corrected additional text data by adding the input corrected text data to the text data. And outputting the generated modified additional text data.
[0021]
In this manner, in the character data correction method, a correction unit of a correction target character that can be executed by one operation of pointing out the point of mismatch that has been pointed out is selected from various correction units prepared in advance. The time limit until text data is output is set, and when the set time limit is exceeded, regardless of whether the text data has been corrected or not, the text data is output via the output unit. Character data can be corrected in a state in which is output forcibly.
[0022]
According to a fifth aspect of the present invention, there is provided a caption generation method according to the present invention, in which a voice heard from the outside is converted into text data by voice recognition means, and a mismatched portion where the text data does not match the voice is corrected. A subtitle generating method for generating a subtitle corresponding to a video on a screen, wherein the subtitle generation unit switches and sets a correction unit of a correction target character included in the mismatched portion, and further corrects the text data and the corrected text obtained by correcting the text data. Setting a time limit for forcibly outputting corrected additional text data including data, and a word corresponding to a noise-containing voice heard from the outside is re-peaked toward a microphone, and converted into an electric signal by the microphone. Outputting the voice as the voice; and Outputting the text data converted by the voice recognition unit on a display screen, and performing a predetermined operation on the mismatched portion of the text data displayed on the display screen. Selecting the mismatched portion corresponding to the correction unit, inputting the corrected text data corrected according to the content of the selected mismatched portion, and inputting the corrected text data In addition to the text data to generate the modified additional text data, and outputting the generated modified additional text data.
[0023]
In this manner, in the method of generating captions, for example, a sports broadcast is started, and a live speaker or commentator speaks into the microphone. And listens through a speaker (usually a headphone), and respeaks to convert the voice into text data via voice recognition means. Therefore, only the respeaked voice is recognized by the voice recognition device and converted into text data. In the text data converted by the voice recognition means and displayed on the display screen, the text data may include a non-coincidence portion that does not match the voice. If there is a mismatched portion in the text data, the mismatched portion is selected, for example, by touching by an operator, corrected, added to the text data as corrected text data, and output as corrected additional text data.
[0024]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is an overall configuration diagram of a
[0025]
As shown in FIG. 1, a
[0026]
The display means 25 is a monitor such as a liquid crystal display or a CRT, and has a display screen on which characters and images can be displayed. The voice signal collected by the
[0027]
The
In addition, an
[0028]
FIG. 2 is a block diagram showing a more specific configuration of
[0029]
The on-site voice data input / output means 16 is installed in the
[0030]
The respeak audio data input / output means 26 is installed in the
[0031]
The character
The text data input means 51 is for inputting text data converted by the
[0032]
The recognition error deletion / correction unit 52 allows the operator 32 (see FIG. 1) to touch an error location on the display screen when there is an error in the recognition character converted into text data by the
[0033]
The error pointing means (mismatching point selecting means) 52a is for selecting an error point by the operator 32 (see FIG. 1) touching (touching) the display screen with a finger or a pen. Note that the error indication unit 52a may be configured to select an error location by operating a mouse or a keyboard with a cursor on the display screen.
[0034]
The text data correcting means 52b corrects an error point pointed out (selected) by the error pointing means 52a to a correct character string by the operator 32 (see FIG. 1). In the text data correcting means 52b, a key code input from the keyboard of the operating means 53 is input, and for example, Japanese characters are input by a known technique such as "kana-kanji conversion".
[0035]
The operation unit (corrected text data input unit) 53 is used by the
The timer circuit 54 outputs a clock signal input to a time limit setting unit 55a described later. The clock signal from the timer circuit 54 may be displayed as time information on a display screen.
[0036]
Here, the control means 55 includes the time limit setting means 55a for setting a time limit and a correction unit setting means (correction unit switching means) 55b for setting a correction unit.
[0037]
The time limit setting means 55a can select between a mode in which the operation of the output means 58 is manually operated and a mode in which a time limit is provided and the output means 58 is forcibly activated when the time limit is reached. Things. The time limit setting means 55a is selected from the timer settings of the correction mode <1> displayed on the display screen of the display means 57, for example, as shown as a screen display example in FIG.
[0038]
That is, the time limit setting unit 55a sets the timer setting by first selecting the “Yes” or “No” button of the timer setting from the setting screen displayed on the display screen. The buttons here can be selected via a keyboard, a mouse, or a touch panel operated by the
[0039]
On the other hand, when "Yes" is selected, a time limit set by the time limit setting means 55a is provided, and when the time limit is reached, the output means 58 is forcibly activated. When the time limit is set by using the keyboard to input a numerical value using the keyboard at the time of setting “Yes”, the numerical value becomes the set time limit (seconds).
In this setting of the time limit, although it takes some time to correct the caption selected by the
[0040]
The correction unit setting means (correction unit switching means) 55b sets the range of characters that can be selected by the
[0041]
FIG. 7 shows specific examples of “character”, “morpheme”, “phrase”, “utterance”, and “sentence” set by the modification unit setting unit 55b. Now, the text data that has been recognized by speech and displayed on the display screen (monitor) by the display means 57 is, as shown in the display example of FIG. 7, "Good morning. On the fifth day of the Salt Lake City Olympic Games, Japan received two medals. In the speed skating that took place at 5 o'clock in Japan time, Hiroyomi Shimizu won the silver medal in the second men's mistranslation meter. " Is selected when the
[0042]
When the
When the
When the
[0043]
When the
Further, when the
[0044]
Generally, in these correction units, the length of one unit becomes longer as going from FIG. 7A to FIG. 7E, and if the unit is shorter, it can be deleted immediately after receiving a recognition error. There are benefits. In addition, for example, in the case of using FIG. 7C or FIG. 7D as a unit, there is an advantage that deletion can often be performed without giving a great sense of discomfort to the context before and after.
[0045]
Also, here, in the unit set by the correction unit setting means 55b, as shown in FIG. 6, the selected character is displayed in the "before correction" display column shown below the entire display surface. At the same time, it is set so that characters that have been correctly corrected are also displayed in the display field "after correction".
[0046]
The storage means 56 is composed of a hard disk and a general memory, and stores text data or corrected text data and corrected additional text data obtained by adding corrected text data to text data.
[0047]
The display means 57 is a monitor such as a liquid crystal display or a CRT, and has a display screen on which characters and images can be displayed. On this display screen, a character string converted into text data by the
[0048]
The output means 58 outputs the text data or the corrected text data and the corrected additional text data obtained by adding the corrected text data to the text data in response to the operation of the operation means 53 or a signal from the time limit setting means 55a. It has a function to send to 59.
[0049]
The caption generation / output means 59 creates a character string for displaying the text data, the corrected text data or the corrected text data from the output means 58 as a caption spar on a television screen (not shown) for each caption text, and outputs it. Is what you do. The configuration of the caption generation / output unit 59 may be the same as the output unit 58 or a configuration provided in another device that outputs from the output unit 58.
[0050]
FIG. 3 is an explanatory diagram schematically showing a process of displaying subtitles in the
[0051]
Generally, the voice of the
[0052]
Then, the text data converted by the
[0053]
The operation of the
(1) If there is an error in the speech recognition result, the
(2) If there is an error in the speech recognition result, the
(3) If there is an error in the speech recognition result, the
[0054]
Here, the features of (1) and (2) are that the
[0055]
Next, FIG. 6 shows a display example on the display screen (monitor screen) of the display means 57 in the character
[0056]
In the state of FIG. 6, the point is set to “Despite the bold early morning” and this is displayed in the “Before” column. To correct this, the correct character is displayed in the “After” column. A new column is input, that is, "Even though it is two days early morning". In addition, the following part, "I'm out loyal to Ohkoshi" is also misrecognized, but it is also said that the
[0057]
If the user wants to delete the character string whose point has been adjusted, the user can delete the character string by selecting the "Delete" button displayed on the display screen of the monitor screen display example in FIG. By rephrasing the
[0058]
Further, when the "Replace" button is selected, the character string "Despite the bold early morning" can be replaced with the character string "Despite two days early morning". The next part "I'm out loyal to Ohkoshi" is also a misrecognition, but the
[0059]
The
[0060]
Next, with reference to FIG. 4 (see FIGS. 1 and 2 as appropriate), a more specific operation will be described by taking as an example the case of sports broadcasting according to the present embodiment.
FIG. 4 shows the subtitle display process shown in FIGS. 1, 2 and 3 in the form of a flowchart operating from voice input to respeak-speech recognition-subtitle output. In the following description, it is assumed that the same screen is normally displayed on the display screen of the display means 57 in the character
[0061]
Procedure 1 (setting process): Prior to starting subtitle broadcasting, the
[0062]
That is, "Yes" and "No" of the timer setting are selected. When "None" is selected, a mode in which the operation of the output means 58 is manually operated without using the time limit setting means 55a is selected. When "Yes" is selected, the time limit by the time limit setting means 55a is selected. And a mode in which the output means 58 is forcibly activated when the time limit is reached is selected.
[0063]
Subsequently, in the modification mode <2> on the same setting menu screen, a modification unit is set (step S2). Further, when the selection is completed, when the "Enter" button on the display screen is selected, these selections are determined, and these selections are overwritten and saved in the storage means 56, and this setting becomes effective until updated thereafter. Then, it waits for the broadcast to start (step S3).
[0064]
Procedure 2 (Respeak processing): When the broadcast is started, the announcement by the
[0065]
In general, the sound reproduced here contains background noise. Therefore, the re-speaker 22 re-peaks a word corresponding to the content of the voice heard through the
[0066]
In general, the
[0067]
Further, the voice re-peaked by the re-speaker 22 and input to the
[0068]
Procedure 3 (voice recognition processing): When voice data is sent to the
[0069]
Step 4 (character data correction processing): The text data input from the text data input means 51 is sent to the recognition error deletion correction means 52 via the control means 55, and the recognition error deletion correction means 52 A deletion / correction process is performed (step S8). Here, first, if there is unconvertible voice data in the text data, the
[0070]
The location of this error is corrected through the text data correcting means 52b while the
[0071]
Step 5 (subtitle generation / output processing): During the text data correction processing, the control means 55 determines whether or not the correction has been completed (including the case where there is no misrecognition) and the “Send” button (see FIG. 6) has been selected. It is monitored (step S9). If the "Send" button is selected (step S9; yes), the output means 58 is started under the control of the control means 55, and the text data passed through the recognition error deletion correction means 52 is set by the correction unit setting means 55b. The subtitles are sent to the subtitle generation / output means 59 for each of the corrected units and output as subtitles on the television screen (step S11).
[0072]
Further, even when the "Send" button is not selected (step S9; no), the control means 55 monitors whether or not the time limit set by the time limit setting means 55a has been reached (step S10). If the time has expired (step S10; yes), the output unit 58 is activated under the control of the control unit 55. When the output means 58 is activated, the text data of the correction unit set by the correction unit setting means 55b, which has not been corrected, is sent to the caption generation output means 59, and is output as the caption on the television screen (step). S11). If the time limit has not been reached (step S10; no), the process returns to step S8, and the recognition error is deleted and corrected. That is, here, the time until presentation is prioritized over the subtitle accuracy. The processing operations from step S1 to step S11 are repeatedly performed until the broadcast ends, and end when the broadcast ends.
[0073]
As described above, in the present embodiment, the following effects can be expected.
In sports broadcasts and the like, the
[0074]
In the character
[0075]
Further, in the character data correction device, a time limit is set until the input character string (character unit) is output by setting of the time limit setting unit 55a, and when the time limit is exceeded, the forced time is automatically enforced. To output a character string. As a result, it is possible to maintain the quality of subtitles according to different requirements (accuracy of characters included in subtitles, delay time, etc.) for each program or the like.
[0076]
【The invention's effect】
According to the first aspect of the present invention, the correction unit (correction range) of the character to be corrected of the character data which can be selected by one operation pointed out by the operator can be variously prepared in advance by setting the correction mode switching means. Since the correction unit can be set from among the correction units, the amount of error deletion / correction work that can be executed by one operation pointed out by the operator can be adjusted by the selected correction unit. As a result, it is possible to maintain the quality of subtitles according to different requirements (accuracy of characters included in subtitles, delay time, etc.) for each program or the like.
If the setting of the modification unit according to the program or the application is performed by the modification mode switching unit, the subtitle quality according to the request (accuracy of the character included in the subtitle, delay time, etc.) which is different for each program or the application can be maintained. .
[0077]
According to the second aspect of the present invention, a time limit is provided until the input character string (character unit) is output, and the character string is forcibly output when the time limit is exceeded. Therefore, the quality of subtitles according to different requirements (accuracy of characters included in subtitles, delay time, etc.) can be maintained.
Therefore, for example, when it is desired to give a higher priority to the presentation time than to the presentation of accurate characters as in a sports broadcast program, the setting time is shortened, and the presentation time is prioritized over the erroneous characters. . Conversely, when accuracy is prioritized, the setting time can be lengthened, and more time can be taken to correct character errors, so that character accuracy can be prioritized. That is, it is possible to arbitrarily control the accuracy of the subtitles and the time until presentation, depending on the nature (use) of the program.
[0078]
According to the third aspect of the present invention, the correction unit (correction range) of the correction target character of the character data which can be selected by one operation pointed out by the operator is set from various correction units prepared in advance. Therefore, the amount of error deletion / correction work that can be executed by one operation pointed out by the operator can be adjusted according to the selected correction unit. In addition, it is possible to limit the time until the input character string (character unit) is output, and to automatically output the character string when the time limit is exceeded. As a result, it is possible to maintain the quality of subtitles according to different requirements (accuracy of characters included in subtitles, delay time, etc.) for each program or the like.
[0079]
According to the invention described in
[0080]
According to the invention as set forth in
[Brief description of the drawings]
FIG. 1 is an overall configuration diagram of a caption creation system according to an embodiment of the present invention.
FIG. 2 is a block diagram showing a more specific configuration of the subtitle creation system according to the embodiment of the present invention.
FIG. 3 is an explanatory diagram schematically showing a subtitle display process in the subtitle creation system according to the embodiment of the present invention.
FIG. 4 is a flowchart showing a main operation of the subtitle creation system according to the embodiment of the present invention.
FIG. 5 is a diagram showing an example of a display screen when a setting menu is displayed in the caption creation system according to the embodiment of the present invention.
FIG. 6 is a diagram showing a display example on a display screen at the time of character correction in the caption creation system according to the embodiment of the present invention.
FIG. 7 is an explanatory diagram of a character correction mode in the caption creation system according to the embodiment of the present invention.
FIG. 8 is an explanatory diagram schematically showing a subtitle display process in a conventional subtitle creation device.
[Explanation of symbols]
1. Caption creation system
10 Data communication line
12 ... Announcement booth
15 ... Microphone
16… Field audio data input / output means
21 ... Respeaking booth
23… Headphone speaker
24 ... Microphone
25 Display means (monitor)
30 ... Speech recognition device (speech recognition means)
31 ... Caption generation booth
50 ... Character data correction device
51: Text data input means
52... Recognition error deletion correction means
52a... Error indicating means (mismatch point selecting means)
52b: Text data correction means
53 ... operation means (correction text data input means)
54: Timer circuit
55 ... Control means
55a ... time limit setting means
55b... Correction unit setting means (correction unit switching means)
56 ... storage means
57 ... Display means
58 output means
59: Caption generation and output means
Claims (5)
前記音声認識手段により変換されたテキストデータを表示画面に表示する表示手段と、
前記不一致箇所に含まれる修正対象文字の修正単位を切り換える修正単位切換手段と、
前記表示画面に表示された前記テキストデータの前記不一致箇所を、所定の操作により指摘したときに、前記修正単位切換手段によって切り換えた修正単位に対応する不一致箇所の選択を行う不一致箇所選択手段と、
前記不一致箇所選択手段により選択された前記不一致箇所の内容に対応した修正を行った修正テキストデータを入力する修正テキストデータ入力手段と、
この修正テキストデータ入力手段により入力された修正テキストデータを前記テキストデータに加えて修正付加テキストデータを生成するテキストデータ修正手段と、
このテキストデータ修正手段で生成された修正付加テキストデータを出力する出力手段と、
を備えることを特徴とする文字データ修正装置。A character data correction device that converts voice to text data by voice recognition means, and corrects when the voice data and the text data include a mismatched portion that does not match the text data,
Display means for displaying the text data converted by the voice recognition means on a display screen,
Correction unit switching means for switching a correction unit of a correction target character included in the mismatched portion,
A mismatching point selecting means for selecting a mismatching point corresponding to the correction unit switched by the correction unit switching means when the mismatching point of the text data displayed on the display screen is indicated by a predetermined operation;
Corrected text data input means for inputting corrected text data corrected according to the content of the mismatched part selected by the mismatched part selecting means,
Text data correction means for generating correction additional text data by adding the correction text data input by the correction text data input means to the text data;
Output means for outputting the corrected additional text data generated by the text data correcting means;
A character data correction device comprising:
前記音声認識手段により変換されたテキストデータを表示画面に表示する表示手段、
前記不一致箇所に含まれる修正対象文字の修正単位を切り換える修正単位切換手段、
前記表示画面に表示された前記テキストデータの前記不一致箇所を、所定の操作により指摘したときに、前記修正単位切換手段によって切り換えた修正単位に対応する不一致箇所の選択を行う不一致箇所選択手段、
前記不一致箇所選択手段により選択された前記不一致箇所の内容に対応した修正を行った修正テキストデータを入力する修正テキストデータ入力手段、
この修正テキストデータ入力手段により入力された修正テキストデータを前記テキストデータに加えて修正付加テキストデータを生成するテキストデータ修正手段、
このテキストデータ修正手段で生成された修正付加テキストデータを出力する出力手段、
前記出力手段によって出力されるまでに制限時間を設け、この制限時間を超えた場合に強制的に前記修正付加テキストデータを出力させる制限時間設定手段、として機能させることを特徴とする文字データ修正プログラム。Apparatus for converting a voice to text data by voice recognition means, and correcting when the voice data and the text data include a mismatched portion where the text data does not match,
Display means for displaying the text data converted by the voice recognition means on a display screen,
Correction unit switching means for switching a correction unit of a correction target character included in the mismatched portion,
A mismatching point selecting means for selecting a mismatching point corresponding to the correction unit switched by the correction unit switching means when the mismatching point of the text data displayed on the display screen is indicated by a predetermined operation;
Corrected text data input means for inputting corrected text data corrected according to the content of the mismatched part selected by the mismatched part selecting means,
Text data correction means for generating correction additional text data by adding the correction text data input by the correction text data input means to the text data;
Output means for outputting the corrected additional text data generated by the text data correcting means,
A character data correction program for providing a time limit until output by the output means, and functioning as time limit setting means for forcibly outputting the corrected additional text data when the time limit is exceeded. .
前記不一致箇所に含まれる修正対象文字の修正単位を切り換えて設定すると共に、前記テキストデータおよびそのテキストデータを修正した修正テキストデータを含む修正付加テキストデータを強制的に出力させる制限時間の設定を行なうステップと、
前記音声認識手段により変換されたテキストデータを表示画面に表示するステップと、
前記表示画面に表示された前記テキストデータの前記不一致箇所を、所定の操作により指摘したときに、前記修正単位に対応する不一致箇所を選択するステップと、
選択された前記不一致箇所の内容に対応した修正を行った修正テキストデータを入力するステップと、
入力された修正テキストデータを前記テキストデータに加えて前記修正付加テキストデータを生成するステップと、
生成された修正付加テキストデータを出力するステップと、
を含むことを特徴とする文字データ修正方法。A character data correction method for converting a voice into text data by voice recognition means and correcting when the text data includes a mismatched portion where the voice does not match the text data,
In addition to switching and setting a correction unit of a correction target character included in the mismatched portion, a time limit for forcibly outputting the text data and correction additional text data including the correction text data obtained by correcting the text data is set. Steps and
Displaying the text data converted by the voice recognition means on a display screen;
Selecting the mismatched portion corresponding to the correction unit when the mismatched portion of the text data displayed on the display screen is indicated by a predetermined operation;
Inputting corrected text data corrected according to the content of the selected mismatched portion,
Generating the corrected additional text data by adding the input corrected text data to the text data;
Outputting the generated modified additional text data;
A character data correction method comprising:
前記不一致箇所に含まれる修正対象文字の修正単位を切り換えて設定すると共に、前記テキストデータおよびそのテキストデータを修正した修正テキストデータを含む修正付加テキストデータを強制的に出力させる制限時間の設定を行なうステップと、
外部より聴取した雑音含有音声に対応する言葉をマイクロホンに向かってリスピークし、前記マイクロホンで電気信号に変換された音声として出力するステップと、
前記リスピークして作成された前記音声を前記音声認識手段によりテキストデータに変換して出力するステップと、
前記音声認識手段により変換されたテキストデータを表示画面に表示するステップと、
前記表示画面に表示された前記テキストデータの前記不一致箇所を、所定の操作により指摘したときに、前記修正単位に対応する不一致箇所を選択するステップと、
選択された前記不一致箇所の内容に対応した修正を行った修正テキストデータを入力するステップと、
入力された修正テキストデータを前記テキストデータに加えて前記修正付加テキストデータを生成するステップと、
生成された修正付加テキストデータを出力するステップと、
を含むことを特徴とする字幕の生成方法。A subtitle generating method for converting audio listened to from the outside into text data by voice recognition means, correcting a mismatched portion where the text data does not match the voice, and generating a subtitle corresponding to a video on a screen. hand,
In addition to switching and setting a correction unit of a correction target character included in the mismatched portion, a time limit for forcibly outputting the text data and correction additional text data including the correction text data obtained by correcting the text data is set. Steps and
Respeaking a word corresponding to the noise-containing voice heard from outside toward the microphone, and outputting as a voice converted into an electric signal by the microphone,
Converting the speech created by the respeaking into text data by the speech recognition means and outputting the text data,
Displaying the text data converted by the voice recognition means on a display screen;
Selecting the mismatched portion corresponding to the correction unit when the mismatched portion of the text data displayed on the display screen is indicated by a predetermined operation;
Inputting corrected text data corrected according to the content of the selected mismatched portion,
Generating the corrected additional text data by adding the input corrected text data to the text data;
Outputting the generated modified additional text data;
A method for generating captions, comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002319365A JP3986009B2 (en) | 2002-11-01 | 2002-11-01 | Character data correction apparatus, method and program thereof, and subtitle generation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002319365A JP3986009B2 (en) | 2002-11-01 | 2002-11-01 | Character data correction apparatus, method and program thereof, and subtitle generation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004151614A true JP2004151614A (en) | 2004-05-27 |
JP3986009B2 JP3986009B2 (en) | 2007-10-03 |
Family
ID=32462235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002319365A Expired - Lifetime JP3986009B2 (en) | 2002-11-01 | 2002-11-01 | Character data correction apparatus, method and program thereof, and subtitle generation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3986009B2 (en) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009265276A (en) * | 2008-04-23 | 2009-11-12 | Internatl Business Mach Corp <Ibm> | Support device, program, and support method |
US7729917B2 (en) | 2006-03-24 | 2010-06-01 | Nuance Communications, Inc. | Correction of a caption produced by speech recognition |
JP2012113730A (en) * | 2009-06-07 | 2012-06-14 | Apple Inc | Device, method, and graphical user interface for accessibility using contact sense surface |
US8707195B2 (en) | 2010-06-07 | 2014-04-22 | Apple Inc. | Devices, methods, and graphical user interfaces for accessibility via a touch-sensitive surface |
US8751971B2 (en) | 2011-06-05 | 2014-06-10 | Apple Inc. | Devices, methods, and graphical user interfaces for providing accessibility using a touch-sensitive surface |
JP2014149612A (en) * | 2013-01-31 | 2014-08-21 | Nippon Hoso Kyokai <Nhk> | Voice recognition error correction device and its program |
US8881269B2 (en) | 2012-03-31 | 2014-11-04 | Apple Inc. | Device, method, and graphical user interface for integrating recognition of handwriting gestures with a screen reader |
JP2015091077A (en) * | 2013-11-07 | 2015-05-11 | 日本電信電話株式会社 | Information display apparatus, method and program |
JP2015184564A (en) * | 2014-03-25 | 2015-10-22 | 株式会社アドバンスト・メディア | Voice transcribing support system, server, device, method and program |
JP2018045256A (en) * | 2017-12-25 | 2018-03-22 | 株式会社フェイス | Subtitle production device and subtitle production method |
JP2018180883A (en) * | 2017-04-12 | 2018-11-15 | 株式会社アドバンスト・メディア | Terminal device and program |
US10276150B2 (en) | 2016-09-12 | 2019-04-30 | Kabushiki Kaisha Toshiba | Correction system, method of correction, and computer program product |
WO2019120247A1 (en) * | 2017-12-20 | 2019-06-27 | 北京君林科技股份有限公司 | Method and device for checking word text |
JP2019148681A (en) * | 2018-02-27 | 2019-09-05 | 富士通株式会社 | Text correction device, text correction method and text correction program |
US10609455B2 (en) | 2017-03-21 | 2020-03-31 | Kabushiki Kaisha Toshiba | Information processing apparatus, information processing method, and computer program product |
US10614265B2 (en) | 2016-03-16 | 2020-04-07 | Kabushiki Kaisha Toshiba | Apparatus, method, and computer program product for correcting speech recognition error |
JP2021078060A (en) * | 2019-11-12 | 2021-05-20 | パナソニックIpマネジメント株式会社 | Subtitle correction system, subtitle correction method, and computer program |
-
2002
- 2002-11-01 JP JP2002319365A patent/JP3986009B2/en not_active Expired - Lifetime
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7729917B2 (en) | 2006-03-24 | 2010-06-01 | Nuance Communications, Inc. | Correction of a caption produced by speech recognition |
JP2009265276A (en) * | 2008-04-23 | 2009-11-12 | Internatl Business Mach Corp <Ibm> | Support device, program, and support method |
US10474351B2 (en) | 2009-06-07 | 2019-11-12 | Apple Inc. | Devices, methods, and graphical user interfaces for accessibility using a touch-sensitive surface |
JP2012113730A (en) * | 2009-06-07 | 2012-06-14 | Apple Inc | Device, method, and graphical user interface for accessibility using contact sense surface |
US8681106B2 (en) | 2009-06-07 | 2014-03-25 | Apple Inc. | Devices, methods, and graphical user interfaces for accessibility using a touch-sensitive surface |
US10061507B2 (en) | 2009-06-07 | 2018-08-28 | Apple Inc. | Devices, methods, and graphical user interfaces for accessibility using a touch-sensitive surface |
US9009612B2 (en) | 2009-06-07 | 2015-04-14 | Apple Inc. | Devices, methods, and graphical user interfaces for accessibility using a touch-sensitive surface |
US8707195B2 (en) | 2010-06-07 | 2014-04-22 | Apple Inc. | Devices, methods, and graphical user interfaces for accessibility via a touch-sensitive surface |
US8751971B2 (en) | 2011-06-05 | 2014-06-10 | Apple Inc. | Devices, methods, and graphical user interfaces for providing accessibility using a touch-sensitive surface |
US8881269B2 (en) | 2012-03-31 | 2014-11-04 | Apple Inc. | Device, method, and graphical user interface for integrating recognition of handwriting gestures with a screen reader |
US10013162B2 (en) | 2012-03-31 | 2018-07-03 | Apple Inc. | Device, method, and graphical user interface for integrating recognition of handwriting gestures with a screen reader |
US9633191B2 (en) | 2012-03-31 | 2017-04-25 | Apple Inc. | Device, method, and graphical user interface for integrating recognition of handwriting gestures with a screen reader |
JP2014149612A (en) * | 2013-01-31 | 2014-08-21 | Nippon Hoso Kyokai <Nhk> | Voice recognition error correction device and its program |
JP2015091077A (en) * | 2013-11-07 | 2015-05-11 | 日本電信電話株式会社 | Information display apparatus, method and program |
JP2015184564A (en) * | 2014-03-25 | 2015-10-22 | 株式会社アドバンスト・メディア | Voice transcribing support system, server, device, method and program |
US10614265B2 (en) | 2016-03-16 | 2020-04-07 | Kabushiki Kaisha Toshiba | Apparatus, method, and computer program product for correcting speech recognition error |
US10276150B2 (en) | 2016-09-12 | 2019-04-30 | Kabushiki Kaisha Toshiba | Correction system, method of correction, and computer program product |
US10609455B2 (en) | 2017-03-21 | 2020-03-31 | Kabushiki Kaisha Toshiba | Information processing apparatus, information processing method, and computer program product |
JP2018180883A (en) * | 2017-04-12 | 2018-11-15 | 株式会社アドバンスト・メディア | Terminal device and program |
WO2019120247A1 (en) * | 2017-12-20 | 2019-06-27 | 北京君林科技股份有限公司 | Method and device for checking word text |
JP2018045256A (en) * | 2017-12-25 | 2018-03-22 | 株式会社フェイス | Subtitle production device and subtitle production method |
JP2019148681A (en) * | 2018-02-27 | 2019-09-05 | 富士通株式会社 | Text correction device, text correction method and text correction program |
JP2021078060A (en) * | 2019-11-12 | 2021-05-20 | パナソニックIpマネジメント株式会社 | Subtitle correction system, subtitle correction method, and computer program |
Also Published As
Publication number | Publication date |
---|---|
JP3986009B2 (en) | 2007-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004151614A (en) | Character data correction device, its method and program, and method of generating subtitles | |
EP3100458B1 (en) | Method and apparatus for synchronizing the playback of two electronic devices | |
JP2003515287A5 (en) | ||
CN112601102A (en) | Method and device for determining simultaneous interpretation of subtitles, electronic equipment and storage medium | |
JP4250646B2 (en) | Broadcast receiving apparatus, control method of broadcast receiving apparatus, and program | |
KR20080033639A (en) | Volume control method in video playback device and video playback device | |
JP2010200085A (en) | Video apparatus | |
JP3395825B2 (en) | Audio multiplex broadcasting receiver | |
JPWO2011142129A1 (en) | Digital broadcast receiving apparatus and digital broadcast receiving method | |
JP2008245038A (en) | Broadcast receiver and display method | |
JP5551186B2 (en) | Broadcast receiving apparatus and program information audio output method in broadcast receiving apparatus | |
JP4894896B2 (en) | Audio signal processing apparatus and audio signal processing method | |
JP2009141810A (en) | Subtitled video playback device, and method and program thereof | |
JP2007295100A (en) | Television receiver | |
JP2013121096A (en) | Voice regulator and digital broadcast receiver | |
JP2002010138A (en) | Information processing method and information processing apparatus | |
JP2008124881A (en) | Broadcast receiver | |
JP4385710B2 (en) | Audio signal processing apparatus and audio signal processing method | |
JP2006067490A (en) | Voice output device | |
JP4414980B2 (en) | Broadcast receiver | |
JP2007214865A (en) | Broadcast receiver | |
JP2004312507A (en) | Information receiver | |
JP2005159910A (en) | Terminal device, video processing method and program | |
WO2025168923A1 (en) | Data processing apparatus and method | |
JP2008191976A (en) | Real-time caption presentation device and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050310 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070626 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070704 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070706 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3986009 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100720 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110720 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120720 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120720 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130720 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140720 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |