JP2008148175A

JP2008148175A - 字幕情報処理装置、文字列情報出力装置、および文字列情報出力方法

Info

Publication number: JP2008148175A
Application number: JP2006335297A
Authority: JP
Inventors: Hiroyuki Morimoto; 洋行森本
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2006-12-13
Filing date: 2006-12-13
Publication date: 2008-06-26

Abstract

【課題】字幕の一覧等が出力される時に、テロップの文字やフリップに書かれた文字等の映像に含まれる文字列も容易に出力されるようにする。
【解決手段】映像処理部１０５は、コンテンツに含まれる映像データを復号することによって、映像を表す映像フレームを生成するとともに、映像データに含まれる時間情報に基づいて、映像フレームの表示時刻情報を取得する。文字認識部１０６は、映像処理部１０５によって生成された映像フレームに基づいて、映像に含まれる文字列を認識し、認識した文字列を示す映像文字列情報を生成する。字幕処理部１０７は、コンテンツに含まれる字幕データに含まれる時間情報に基づいて、字幕の表示時刻情報を取得する。
【選択図】図１

Description

本発明は、例えば、テレビまたはラジオ等の放送波に含まれる文字情報を記録する装置に関し、より詳しくは、字幕を示す文字情報に加え、映像情報が示す映像に含まれる文字を示す情報をも文字情報として記録する技術に関する。

映像や音声だけでは視聴者に情報が伝わり難いような場合、付加情報として字幕やテロップが用いられる。特に、地上デジタル放送が開始され、字幕サービスの普及が進んでいる。字幕サービスによると、出演者が喋った言葉が文字列としてテレビジョン受信機等に表示される。地上デジタル放送では、出演者の話した内容の殆ど全てが字幕として表示される。字幕データは、音声データおよび映像データと比較して、記録に必要な容量が少ないという利点がある。例えば、出演者の話した内容を表す字幕データと、その内容を話す出演者の音声を表す音声データとを比較すると、字幕データの方が音声データよりもデータ量が小さく、小さい記憶容量で保存できる。また、字幕データは、適当な文字コード形式で保存することにより、処理能力の低い機器でも利用しやすくしたり、再利用しやすくできる。

特許文献１に記載された字幕処理装置は、受信したテレビ放送波から得られる字幕信号に基づいて、字幕文を文字コード（符号）形式で表したテキスト情報を生成し、内部に保存するようになっている。そして、保存したテキスト情報に基づいて、字幕の一覧をユーザーによるリモコン操作等に応じていつでもテレビモニタ等に表示できるようになっている。
特開２００３−７８８８９号公報特開２００３−１８４９１号公報

ここで、上記特許文献１に記載された字幕処理装置では、放送局側で映像に合成されたテロップの文字、および出演者が保持するフリップに書かれた文字等は、字幕信号ではなく、映像信号に含まれる情報なので、テキスト情報として保存されない。しかし、字幕の一覧がテレビモニタ等に表示される時に、字幕に加え、テロップの文字やフリップに書かれた文字等も表示された方が、表示を視認するユーザーにとって番組内容等を理解しやすい場合がある。

本発明は、上記の点に鑑み、字幕の一覧等が出力される時に、テロップの文字やフリップに書かれた文字等の映像に含まれる文字列も容易に出力されるようにすることを目的とする。

上記の課題を解決するため、第１の字幕情報処理装置は、
コンテンツに含まれる映像データを復号することによって、映像を表す映像フレームを生成するとともに、上記映像データに含まれる時間情報に基づいて、上記映像フレームの表示時刻情報を取得する映像処理部と、
上記映像処理部によって生成された映像フレームに基づいて、上記映像に含まれる文字列を認識し、認識した文字列を示す映像文字列情報を生成する文字認識部と、
コンテンツに含まれる字幕データに含まれる時間情報に基づいて、字幕の表示時刻情報を取得する字幕処理部とを備えていることを特徴とする。

これにより、映像フレームおよび字幕の表示時刻情報に基づいて、映像に含まれる文字列を、表示時刻が同一の字幕の文字列と共に容易に出力できる。したがって、字幕の一覧等と共に、テロップの文字やフリップに書かれた文字等の映像に含まれる文字列が、容易に出力されるようになる。

また、第２の発明は、
第１の字幕情報処理装置において、
さらに、上記映像フレームの表示時刻情報と上記字幕の表示時刻情報とに基づいて、表示時刻が同一の上記映像文字列情報と上記字幕データから得られる字幕文字列情報とを、関連づけて出力する表示時刻情報参照部を備えていることを特徴とする。

これにより、表示時刻が同一の上記映像文字列情報および上記字幕文字列情報とが、関連づけて出力される。

また、第３の発明は、
第１の字幕情報処理装置において、
さらに、上記文字認識部によって生成された映像文字列情報および上記字幕データから得られる字幕文字列情報を記憶部に記録する記録部を備えていることを特徴とする。

これにより、記憶部に記憶された映像文字列情報および字幕文字列情報に基づいて、映像に含まれる文字列と字幕の文字列とが容易に出力される。

また、第４の発明は、
第１の字幕情報処理装置において、
上記字幕データは字幕ＰＥＳであり、
さらに、上記文字認識部によって生成された映像文字列情報を、字幕ＰＥＳのデータ形式に変換する字幕生成部と、
上記字幕生成部によって字幕ＰＥＳのデータ形式に変換された映像文字列情報、および上記字幕データを記憶部に記録する記録部を備えていることを特徴とする。

これにより、字幕ＰＥＳを処理可能な再生装置等が、この字幕情報処理装置によって記録された字幕データと映像文字列情報とを読み出すことによって、字幕の一覧等と共に、テロップの文字やフリップに書かれた文字等の映像に含まれる文字列を容易に出力できる。また、映像文字列情報は、字幕ＰＥＳのデータ形式なので、映像文字列情報が映像信号の形式のデータとして出力される場合よりも、出力データの容量が小さくなる。

また、第５の発明は、
映像に含まれる文字列を示す映像文字列情報と、字幕の文字列を示す字幕文字列情報とを出力する文字列情報出力装置であって、
上記映像の表示時刻情報と上記字幕の表示時刻情報とに基づいて、表示時刻が同一の上記映像文字列情報と上記字幕文字列情報とを、関連づけて出力することを特徴とする。

また、第６の発明は、
文字列情報出力装置において、映像に含まれる文字列を示す映像文字列情報と、字幕の文字列を示す字幕文字列情報とを出力する文字列情報出力方法であって、
上記映像の表示時刻情報と上記字幕の表示時刻情報とに基づいて、表示時刻が同一の上記映像文字列情報と上記字幕文字列情報とを、関連づけて出力することを特徴とする。

これらにより、表示時刻が同一の上記映像文字列情報と上記字幕文字列情報とが関連づけて出力される。

また、第７の字幕情報処理装置は、
コンテンツに含まれる映像データから、映像信号を生成する映像処理部と、
コンテンツに含まれる字幕データから、字幕の文字列を示す字幕文字列情報を取得し、上記字幕文字列情報に基づいて、上記字幕の文字列を表す映像の映像信号を生成する字幕処理部と、
上記映像処理部によって生成された映像信号と上記字幕処理部によって生成された映像信号とを合成することによって、合成映像を表す合成映像信号を生成する映像合成部と、
上記映像合成部によって生成された合成映像信号に基づいて、上記合成映像に含まれる文字列を認識し、認識した文字列を示す合成映像文字列情報を生成する文字認識部とを備えていることを特徴とする。

これにより、合成映像文字列情報に基づいて、字幕の文字列と共に、映像に含まれる文字列を容易に出力できる。したがって、字幕の一覧等と共に、テロップの文字やフリップに書かれた文字等の映像に含まれる文字列が、容易に出力されるようになる。

また、第８の字幕情報処理装置は、
第７の字幕情報処理装置において、
さらに、上記文字認識部によって生成された合成映像文字列情報を記憶部に記録する記録部を備えていることを特徴とする。

これにより、記憶部に記憶された合成映像文字列情報に基づいて、映像に含まれる文字列と字幕の文字列とが容易に出力される。

また、第９の字幕情報処理装置は、
第７の字幕情報処理装置において、
さらに、上記文字認識部によって生成された合成映像文字列情報を、字幕ＰＥＳのデータ形式に変換する字幕生成部と、
上記字幕生成部によって字幕ＰＥＳのデータ形式に変換された合成映像文字列情報を記憶部に記録する記録部とを備えていることを特徴とする。

これにより、字幕ＰＥＳを処理可能な再生装置等が、この字幕情報処理装置によって記録された合成映像文字列情報を読み出すことによって、字幕の一覧等と共に、テロップの文字やフリップに書かれた文字等の映像に含まれる文字列を容易に出力できる。また、映像文字列情報は、字幕ＰＥＳのデータ形式なので、映像信号の形式のデータとして映像文字列情報が出力される場合よりも、出力データの容量が小さくなる。

本発明によると、字幕の一覧等が出力される時に、テロップの文字やフリップに書かれた文字等の映像に含まれる文字列も容易に出力されるようになる。

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の各実施形態において、他の実施形態と同様の機能を有する構成要素については同一の符号を付して説明を省略する。

《実施形態１》
本発明の実施形態１に係る字幕情報処理装置は、図１に示すように、アンテナ１０１、チューナ部１０２、復調部１０３、トランスポートデコード部１０４、映像処理部１０５、文字認識部１０６、字幕処理部１０７、表示時刻情報参照部１０８、記録部１０９、記憶部１１０、および表示部１１１を備えている。

アンテナ１０１は、地上デジタル放送波を受信するようになっている。具体的には、アンテナ１０１は、ホイップ（ロッド）アンテナ、ダイポールアンテナ、八木・宇田アンテナ、パラボラアンテナ、ループアンテナ、または誘電体アンテナ等である。

チューナ部１０２は、アンテナ１０１によって受信された放送波を、指定されたチャンネルに対応する周波数に同調させることにより、選局を行うようになっている。

復調部１０３は、指定されたチャンネルを通じて受信された信号を、デジタルストリームデータ、具体的には、トランスポートストリーム（ＴＳ）に復調するようになっている。当該ＴＳは、映像、音声、字幕、およびセクション情報等のデータが多重化されたものである。

トランスポートデコード部１０４は、復調されたデジタルストリーム（コンテンツ）を解析して、音声（オーディオ）、映像（ビデオ）、字幕、およびセクション情報等について、それぞれのＰＥＳ（Packetized Elementary Stream、パケッタイズドエレメンタリーストリーム）を構築するようになっている。字幕を示すＰＥＳ（以下、「字幕ＰＥＳ」と呼ぶ。）は、それぞれ、ヘッダ部分とペイロード（Payload）部分とを有する。ペイロード部分は、表示すべき字幕の字幕情報、または字幕の表示を制御するための制御符号を含み、ヘッダ部分は、字幕または制御符号を表示するタイミングを示す時間情報を含む。

映像処理部１０５は、トランスポートデコード部１０４によって構築された映像のＰＥＳ（以下、「映像ＰＥＳ」と呼ぶ）（映像データ）を復号することによって、映像をＹＵＶフォーマット、またはＲＧＢフォーマットで表す映像信号（映像フレーム）を生成するようになっている。また、映像ＰＥＳに含まれる時間情報に基づいて、生成した映像信号を出力する時刻を示す表示時刻情報を取得するようになっている。そして、生成した映像信号を図示しないメモリに保存するようになっている。なお、表示時刻情報の取得方法については、後に詳述する。

文字認識部１０６は、図示しないメモリに保存された映像信号に基づいて、所定の文字認識アルゴリズムを用いて映像に含まれる文字（画面中の文字）を識別し、１文字毎にＪＩＳコードに変換するようになっている。つまり、画面中の文字列をＪＩＳコード形式で表す映像文字列情報を生成するようになっている。

字幕処理部１０７は、トランスポートデコード部１０４によって構築された字幕ＰＥＳ（字幕データ）を解析し、復号することによって、字幕の文字列をＪＩＳコード形式で表す字幕文字列情報を生成するとともに、字幕ＰＥＳに含まれる時間情報に応じたタイミングで、生成した字幕文字列情報を出力するようになっている。また、字幕処理部１０７は、字幕ＰＥＳに含まれる時間情報に基づいて、字幕の文字列を表示する時刻を示す表示時刻情報を取得するようになっている。

表示時刻情報参照部１０８（文字列情報出力装置）は、文字認識部１０６によって生成された映像文字列情報と字幕処理部１０７によって生成された字幕文字列情報とを、映像処理部１０５によって取得された表示時刻情報と字幕処理部１０７によって取得された表示時刻情報とに基づいて同期させて出力するようになっている。これにより、表示時刻が同一の映像文字列情報と字幕文字列情報とが同一タイミングで出力される（関連づけて出力される）。

記録部１０９は、記憶部１１０に、文字認識部１０６によって生成された映像文字列情報と、字幕処理部１０７によって生成された字幕文字列情報とを順次記録するようになっている。映像文字列情報と字幕文字列情報は、表示時刻情報参照部１０８から出力されたタイミングの順に記録される。記憶部１１０は、メモリカード、光ディスク、磁気ディスク等の記録媒体、これら記録媒体を備えた機器、有線又は無線のネットワーク等で実現される。

表示部１１１は、ユーザからの再生指示により、記憶部１１０に記憶された文字列情報を読み出し、文字列を表示するようになっている。同一時刻の文字列は、例えば、一連の文字列として表示される等、関連づけられて表示される。このことは、映像文字列情報と字幕文字列情報とが、表示時刻情報参照部１０８によって同期して出力され、表示時刻情報参照部１０８から出力されたタイミングの順で記憶部１１０に記録されることによって可能になる。表示部１１１は、ＣＲＴ（Cathod Ray Tube display）、ＬＣＤ（Liquid Crystal Display）、ＰＤＰ（Plasma Display Panel）、または有機ＥＬ（Electroluminescence display）等の表示デバイスとそのインタフェースとから構成される。

次に、図２を用いて、本実施形態の字幕情報処理装置による文字情報の記録動作について説明する。

（Ｓ１００１）チューナ部１０２は、ユーザからの指示により、アンテナ１０１によって受信されたデジタルテレビ放送の放送波を、視聴対象のチャンネルに同調させ、そのチャンネルのテレビ放送信号を受信する。

（Ｓ１００２）チューナ部１０２によって受信されたテレビ放送信号は、復調部１０３により、デジタルストリームに復調される。

（Ｓ１００３）復調されたデジタルストリームは、トランスポートデコード部１０４によって、映像、音声、字幕、およびセクション情報等の各トランスポートストリームに分離される。分離された各トランスポートストリームはパケット化され、映像、音声、字幕、およびセクション情報等の各ＰＥＳが構築される。

（Ｓ１００４）構築された各ＰＥＳは、それぞれ、映像処理部１０５、字幕処理部１０７、または図示しない音声処理部に入力される。映像処理部１０５は、トランスポートデコード部１０４から映像ＰＥＳが入力されると動作を開始する。映像処理部１０５に入力された各映像ＰＥＳは、複数フレーム分の画像を含んでいるが、映像処理部１０５によって１フレーム単位に分割される。次に、映像処理部１０５は、各フレームの映像を表示する時刻を示す表示時刻情報を取得する。

ここで、映像処理部１０５が表示時刻情報を取得する方法について具体的に説明する。まず、映像ＰＥＳは、図３に示すように、ヘッダ部分とペイロード（Payload）部分から構成され、ヘッダ部分は、そのパケットの先頭にあるフレームの映像（１画面の映像）を表示するタイミングを示す時間情報を含む。この時間情報は、一般に、ＰＴＳ（Presentation Time Stamp）と呼ばれるものである。ペイロード部分は、複数のフレームを含む。各フレームには、映像を示す映像情報と前のフレームの映像を表示してから当該映像を表示するタイミングまでの時間を示す時間情報が含まれる。この時間情報は、前のフレームからの遅延時間、つまり相対時間を示し、一般に、Supplimental enhancement informationと呼ばれるものである。映像処理部１０５は、映像ＰＥＳのヘッダ部分に含まれる時間情報と、各フレームに含まれる時間情報とを解析することによって、各フレームの映像を表示する時刻を示す表示時刻情報を取得する。先頭以外のフレームの映像の表示時間情報は、前のフレームの表示時刻に、そのフレームに含まれる時間情報によって示される相対時間を加算した時刻を示すものとなる。

映像処理部１０５は、取得した表示時刻情報で示される時刻順に、各フレームをデコードし、ＹＵＶやＲＧＢ等の映像信号のフォーマットで図示しないメモリに保存する。

（Ｓ１００５）メモリに保存された映像信号は、文字認識部１０６によって処理される。まず、文字認識部１０６は、メモリに保存された映像信号で示される映像にテロップやフリップ等の文字列（文字映像）が含まれているかどうか判定する。文字列が含まれていない場合には（Ｓ１００６）に進む。文字列が含まれている場合には（Ｓ１００７）に進む。

（Ｓ１００６）後述する文字列保存領域を初期化し、（Ｓ１００４）に戻り、新たな映像ＰＥＳが映像処理部１０５に入力されるのを待つ。

（Ｓ１００７）文字認識部１０６は、文字認識アルゴリズムを用いて、文字を認識し、一文字毎にＪＩＳコードに変換し、映像文字列情報を生成する。

図４は、（Ｓ１００５）と（Ｓ１００７）の処理内容の例を示す説明図である。

（１）文字認識部１０６は、（Ｓ１００５）で映像信号で示される映像に文字列を含む文字映像が含まれていると判定する。

（２）文字認識部１０６は、（Ｓ１００７）で、文字映像を１文字分毎に映像から切り出す。

（３）文字認識部１０６は、（Ｓ１００７）で、切り出した各文字映像から文字を認識し、ＪＩＳコードに変換する。例えば、図４において、「綺」という文字が認識され、「６５３Ａ」というＪＩＳコードに変換されている。

なお、ここで用いられる文字認識アルゴリズムについては、すでに多くの実現手段が知られているので、詳細な説明を省略するが、既存の実現手段のどれを用いても良い。また、精度を向上させるために既存の実現手段を複数組み合わせて用いてもよい。

なお、（Ｓ１００５）での判定処理の前、または（Ｓ１００７）で文字認識を行う前に、認識率を高めるために、映像信号に対し、輪郭強調やコントラスト調整などの画像処理を行うようにしてもよい。

（Ｓ１００８）文字認識部１０６によって生成された映像文字列情報は、メモリに確保された文字列保存領域に保存された文字列と比較される。この文字列保存領域には、前回記憶部１１０に保存された文字列がキャッシュとして保存されている。すなわち、文字認識アルゴリズムによって新たに認識された文字列が、前回認識された文字列と同じであるか否かが比較判定される。同じであった場合には、前回認識されたテロップまたはフリップ等が引き続き表示されていると判定され、（Ｓ１００４）に戻る。異なっていた場合には、新たなテロップやフリップが表示されたと判定され、（Ｓ１００９）に進む。

（Ｓ１００９）新たな映像文字列情報が文字列保存領域に保存された後、記録部１０９に出力される。

（Ｓ１０１０）字幕処理部１０７は、トランスポートデコード部１０４から字幕ＰＥＳが入力されると動作を開始する。したがって、前述の映像処理部１０５と字幕処理部１０７は平行または並列に動作する。

字幕処理部１０７は、まず字幕ＰＥＳのヘッダ部分に含まれる時間情報を解析して、字幕の表示時刻情報を取得する。この表示時刻情報を取得するために、必要に応じてペイロード部分に含まれる時間情報をも解析する。次に、入力された字幕ＰＥＳのペイロード部分を解析し、字幕を１文字毎にＪＩＳコード形式に変換し、字幕文字列情報を生成する。

（Ｓ１０１１）表示時刻情報参照部１０８は、文字認識部１０６によって生成された映像文字列情報と字幕処理部１０７によって生成された字幕文字列情報とを、映像処理部１０５によって取得された表示時刻情報と字幕処理部１０７によって取得された表示時刻情報とに基づいて、同期させて出力する。

文字認識部１０６と字幕処理部１０７は、それぞれ、前段から処理対象のデータが入力されると処理を開始するイベントドリブン形式で平行または並列に動作する。したがって、表示時刻情報参照部１０８において、文字認識部１０６による映像文字列情報の入力と、字幕処理部１０７による字幕文字列情報の入力とが、競合したり混じり合ったりしないように排他制御等の処理が行われる。

（Ｓ１０１２）記録部１０９は、記憶部１１０に、表示時刻情報参照部１０８から入力される映像文字列情報と字幕文字列情報とを順次記録する。映像文字列情報は、文字コード形式なので、映像データ等を記録する場合よりも、効率的に記録できる。

ユーザは、図示しないボタン、キーボード、タッチパネルなどのマンマシンインタフェースを介して、記憶部１１０に保存された文字列を表示部１１１に表示させることができる。記憶部１１０には、映像信号から得られる映像に含まれる文字列を文字コード形式で表す映像文字列情報が記憶されているので、表示部１１１は、この情報を読み出すことによって、映像に含まれる文字列を容易に表示できる。ユーザは、表示された文字列を視認することによって、番組内容等をよりよく理解できる。

また、映像文字列情報と字幕文字列情報とが、表示時刻情報参照部１０８によって同期して出力され、表示時刻情報参照部１０８から出力されたタイミングの順で記憶部１１０に記録されているので、表示部１１１は、同一時刻の字幕の文字列と映像に含まれる文字列とを、例えば、一連の文字列として表示する等、関連づけて表示できる。

なお、表示部１１１に表示させる代わりに記憶部１１０に記録された文字列情報が外部に取り出されるようにしてもよい。この場合には、記憶部１１０そのものが取り外されるようにしてもよいし、記憶部１１０とは別の記憶装置が接続され、そこに記憶部１１０に記録された文字列情報が移動、またはコピーされるようにしてもよい。

《実施形態１の変形例》
なお、図５に示すように、実施形態１の変形例の字幕情報処理装置は、表示時刻情報参照部１２１を記憶部１１０と表示部１１１の間に備えている。

本変形例において、記録部１０９は、映像文字列情報と字幕文字列情報とに加え、映像処理部１０５によって取得された表示時刻情報と字幕処理部１０７によって取得された表示時刻情報とを記憶部１１０に記録する。

表示時刻情報参照部１２１（文字列情報出力装置）は、ユーザからの再生指示により、記憶部１１０に記録された映像文字列情報と字幕文字列情報とを、記憶部１１０に記録された両者の表示時刻情報に応じて、表示時刻が同一の文字列情報が連続するように出力する（関連づけて出力する）。

表示部１１１は、表示時刻情報参照部１２１によって出力された映像文字列情報と字幕文字列情報に基づいて、順次文字列を表示する。表示時刻情報参照部１２１によって、表示時刻が同一の文字列情報が連続するように出力されているので、表示時刻が同一の文字列は、連続する文字列として表示される。

《実施形態２》
本発明の実施形態２に係る字幕情報処理装置は、図６に示すように、実施形態１の字幕情報処理装置の字幕処理部１０７に代えて、字幕処理部２０１を備え、また、字幕生成部２０２をさらに備えている。

字幕処理部２０１は、トランスポートデコード部１０４によって構築された字幕ＰＥＳに含まれる時間情報を解析し、字幕の表示時刻を示す表示時刻情報を取得し、その表示時刻情報に応じたタイミングで、その字幕ＰＥＳを出力するようになっている。

字幕生成部２０２は、文字認識部１０６から出力された映像文字列情報を、字幕ＰＥＳのデータ形式（フォーマット）に変換して出力するようになっている。つまり、その映像文字列情報で表される字幕を表す適切な字幕ＰＥＳを出力するようになっている。ここで、字幕ＰＥＳを生成するために、映像処理部１０５によって解析された映像ＰＥＳに含まれる時間情報が利用される。

表示時刻情報参照部１０８は、字幕生成部２０２によって字幕ＰＥＳのデータ形式に変換された映像文字列情報と字幕処理部２０１によって出力された字幕ＰＥＳ（字幕データ）とを、映像処理部１０５によって取得された表示時刻情報と字幕処理部２０１によって取得された表示時刻情報とに基づいて同期させて出力するようになっている。これにより、表示時刻が同一の上記映像文字列情報と上記字幕文字列情報とが同一タイミングで出力される（関連づけて出力される）。

記録部１０９は、記憶部１１０に、字幕処理部２０１によって出力された字幕ＰＥＳと、字幕生成部２０２から出力された字幕ＰＥＳのデータ形式の映像文字列情報とを順次記録するようになっている。字幕ＰＥＳと映像文字列情報とは、表示時刻情報参照部１０８から出力されたタイミングの順に記録される。

以上の構成により、記憶部１１０には、字幕ＰＥＳが連続して記録される。そして、記憶部１１０で、放送波から得られる本来の字幕ＰＥＳと、映像に含まれるテロップやフリップ等の文字列を認識することによって生成された字幕ＰＥＳとが混在して保存される。よって、保存された字幕ＰＥＳに基づいて、字幕の文字列と映像に含まれる文字列とを、一般的な字幕ＰＥＳを処理可能な表示部（再生装置等）を用いて表示できる。したがって、字幕情報処理装置の汎用性が向上する。また、文字色の設定やフラッシュ等の表示利点がある。

また、映像文字列情報と字幕ＰＥＳとが、表示時刻情報参照部１０８によって同期して出力され、表示時刻情報参照部１０８から出力されたタイミングの順で記憶部１１０に記録されているので、表示部１１１は、同一時刻の文字列を、例えば、一連の文字列として表示する等、関連づけて表示できる。

さらに、記憶部１１０にＰＡＴ（Program Association Table）、ＰＭＴ（Program Map Table）などのセクション情報を保存することにより、より一般的なテレビ受信機で映像に含まれる文字列を再生できるようにしてもよい。

《実施形態３》
本発明の実施形態３に係る字幕情報処理装置は、図７に示すように、実施形態１の字幕情報処理装置の字幕処理部１０７に代えて、字幕処理部３０１を備え、また、映像合成部３０２をさらに備えている。また、表示時刻情報参照部１０８を備えていない。

字幕処理部３０１は、実施形態１の字幕処理部１０７の機能に加え、字幕文字列情報に基づいて、その字幕文字列情報によって示された字幕の文字列を表す映像を、ＹＵＶフォーマット、またはＲＧＢフォーマット等のフォーマットで表す映像信号を生成し、図示しないメモリに保存するようになっている。

映像合成部３０２は、映像処理部１０５によって生成された映像信号と字幕処理部３０１とによって生成された映像信号とを、図示しないメモリから読み出して合成することによって、一つの合成映像（合成画像）を表す合成映像信号を生成するようになっている。合成映像信号によって表される映像には、字幕処理部３０１から出力された映像信号によって表される字幕の文字列と、映像処理部１０５から出力された映像信号によって表される映像との両方が含まれる。映像の合成には、アルファ合成、または加算合成等の既存の手法を用いればよい。

文字認識部１０６は、映像合成部３０２によって生成された合成映像信号に基づいて、所定の文字認識アルゴリズムを用いて合成映像に含まれる文字列を認識し、認識した文字列をＪＩＳコード形式で示す合成映像文字列情報を生成するようになっている。

記録部１０９は、文字認識部１０６によって生成された合成映像文字列情報を、記憶部１１０に記録するようになっている。

地上デジタル放送の字幕は、画面上の任意の場所に表示可能である。本実施形態によると、字幕処理部３０１によって処理される字幕ＰＥＳで表される字幕と、映像に含まれるテロップおよびフリップ内の文字等との位置関係を再現でき、文字情報から番組内容を推測することがより容易になる。

《実施形態３の変形例》
なお、図８に示すように、文字認識部１０６によって生成された合成映像文字列情報を字幕ＰＥＳのデータ形式（フォーマット）に変換して出力する字幕生成部２０２を、文字認識部１０６と記録部１０９との間に設け、記録部１０９が合成映像文字列情報を字幕ＰＥＳのデータ形式で記憶部１１０に記録（保存）するようにしてもよい。この場合にも、実施形態２と同様に、保存された字幕ＰＥＳに基づいて、字幕の文字列と映像に含まれる文字列とを、一般的な字幕ＰＥＳを処理可能な表示部（再生装置等）を用いて表示できるという利点がある。

《その他の実施形態》
なお、実施形態１〜３において、文字認識部１０６は、画面中の文字列をＪＩＳコード形式で表す映像文字列情報を出力するようになっている。しかし、ＪＩＳコードに限らず、シフトＪＩＳコード、日本語ＥＵＣコード、Ｕｎｉｃｏｄｅ、または８単位符号等の他の文字コード形式で文字列を表す映像文字列情報を出力するようにしてもよい。

また、実施形態１、３において、字幕処理部１０７、３０１は、字幕を８単位符号を用いてコード化した地上デジタル放送の字幕情報を、字幕をＪＩＳコード形式で表す字幕文字列情報に変換するようになっている。しかし、字幕処理部１０７、３０１によって変換が行われずに字幕文字列情報が字幕情報の形式のままで出力され、記憶部１１０に記録されるようにしてもよい。また、字幕処理部１０７、３０１によって、ＪＩＳコード形式への変換に代えて、シフトＪＩＳコード、日本語ＥＵＣコード、またはＵｎｉｃｏｄｅ等の他の文字コード形式への変換が行われ、変換後の字幕文字列情報が記憶部１１０に記録されるようにしてもよい。ただし、字幕処理部１０７、３０１によって出力される字幕文字列情報と文字認識部１０６によって出力される映像文字列情報とは、同じデータ形式である必要がある。

また、上記実施形態において、文字認識部１０６が、画面中の文字列の前と後との少なくとも一方に“「”や“」”といったカギ括弧記号等の区切りを表す特定の記号が加えられた文字列を表す映像文字列情報を出力するようにしてもよい。また、字幕処理部１０７が、字幕の文字列の前と後との少なくとも一方に“（”や“）”といった括弧記号等の区切りを表す特定の記号が加えられた文字列を表す字幕文字列情報を出力するようにしてもよい。このような映像文字列情報、または字幕文字列情報に基づいて文字列が表示部１１１に表示されることにより、ユーザは、文字認識部１０６によって認識された画面中の文字列と、字幕の文字列とを判別できる。

本発明に係る字幕情報処理装置は、字幕の一覧等が出力される時に、テロップの文字やフリップに書かれた文字等の映像に含まれる文字列も容易に出力されるようになるという効果を有し、例えば、テレビまたはラジオ等の放送波に含まれる文字情報を記録する装置等として有用である。

本発明の実施形態１に係る字幕情報処理装置の構成を示すブロック図である。同、字幕情報処理装置の動作を示すフローチャートである。同、映像ＰＥＳのデータ構成を示す説明図である。同、文字認識部１０６の処理内容の例を示す説明図である。本発明の実施形態１の変形例に係る字幕情報処理装置の構成を示すブロック図である。本発明の実施形態２に係る字幕情報処理装置の構成を示すブロック図である。本発明の実施形態３に係る字幕情報処理装置の構成を示すブロック図である。本発明の実施形態３の変形例に係る字幕情報処理装置の構成を示すブロック図である。

符号の説明

１０１アンテナ
１０２チューナ部
１０３復調部
１０４トランスポートデコード部
１０５映像処理部
１０６文字認識部
１０７字幕処理部
１０８表示時刻情報参照部
１０９記録部
１１０記憶部
１１１表示部
１２１表示時刻情報参照部
２０１字幕処理部
２０２字幕生成部
３０１字幕処理部
３０２映像合成部

Claims

コンテンツに含まれる映像データを復号することによって、映像を表す映像フレームを生成するとともに、上記映像データに含まれる時間情報に基づいて、上記映像フレームの表示時刻情報を取得する映像処理部と、
上記映像処理部によって生成された映像フレームに基づいて、上記映像に含まれる文字列を認識し、認識した文字列を示す映像文字列情報を生成する文字認識部と、
コンテンツに含まれる字幕データに含まれる時間情報に基づいて、字幕の表示時刻情報を取得する字幕処理部とを備えていることを特徴とする字幕情報処理装置。
請求項１の字幕情報処理装置において、
さらに、上記映像フレームの表示時刻情報と上記字幕の表示時刻情報とに基づいて、表示時刻が同一の上記映像文字列情報と上記字幕データから得られる字幕文字列情報とを、関連づけて出力する表示時刻情報参照部を備えていることを特徴とする字幕情報処理装置。
請求項１の字幕情報処理装置において、
さらに、上記文字認識部によって生成された映像文字列情報および上記字幕データから得られる字幕文字列情報を記憶部に記録する記録部を備えていることを特徴とする字幕情報処理装置。
請求項１の字幕情報処理装置において、
上記字幕データは字幕ＰＥＳであり、
さらに、上記文字認識部によって生成された映像文字列情報を、字幕ＰＥＳのデータ形式に変換する字幕生成部と、
上記字幕生成部によって字幕ＰＥＳのデータ形式に変換された映像文字列情報、および上記字幕データを記憶部に記録する記録部を備えていることを特徴とする字幕情報処理装置。
映像に含まれる文字列を示す映像文字列情報と、字幕の文字列を示す字幕文字列情報とを出力する文字列情報出力装置であって、
上記映像の表示時刻情報と上記字幕の表示時刻情報とに基づいて、表示時刻が同一の上記映像文字列情報と上記字幕文字列情報とを、関連づけて出力することを特徴とする文字列情報出力装置。
文字列情報出力装置において、映像に含まれる文字列を示す映像文字列情報と、字幕の文字列を示す字幕文字列情報とを出力する文字列情報出力方法であって、
上記映像の表示時刻情報と上記字幕の表示時刻情報とに基づいて、表示時刻が同一の上記映像文字列情報と上記字幕文字列情報とを、関連づけて出力することを特徴とする文字列情報出力方法。
コンテンツに含まれる映像データから、映像信号を生成する映像処理部と、
コンテンツに含まれる字幕データから、字幕の文字列を示す字幕文字列情報を取得し、上記字幕文字列情報に基づいて、上記字幕の文字列を表す映像の映像信号を生成する字幕処理部と、
上記映像処理部によって生成された映像信号と上記字幕処理部によって生成された映像信号とを合成することによって、合成映像を表す合成映像信号を生成する映像合成部と、
上記映像合成部によって生成された合成映像信号に基づいて、上記合成映像に含まれる文字列を認識し、認識した文字列を示す合成映像文字列情報を生成する文字認識部とを備えていることを特徴とする字幕情報処理装置。
請求項７の字幕情報処理装置において、
さらに、上記文字認識部によって生成された合成映像文字列情報を記憶部に記録する記録部を備えていることを特徴とする字幕情報処理装置。
請求項７の字幕情報処理装置において、
さらに、上記文字認識部によって生成された合成映像文字列情報を、字幕ＰＥＳのデータ形式に変換する字幕生成部と、
上記字幕生成部によって字幕ＰＥＳのデータ形式に変換された合成映像文字列情報を記憶部に記録する記録部とを備えていることを特徴とする字幕情報処理装置。