[go: up one dir, main page]

JP2008148175A - 字幕情報処理装置、文字列情報出力装置、および文字列情報出力方法 - Google Patents

字幕情報処理装置、文字列情報出力装置、および文字列情報出力方法 Download PDF

Info

Publication number
JP2008148175A
JP2008148175A JP2006335297A JP2006335297A JP2008148175A JP 2008148175 A JP2008148175 A JP 2008148175A JP 2006335297 A JP2006335297 A JP 2006335297A JP 2006335297 A JP2006335297 A JP 2006335297A JP 2008148175 A JP2008148175 A JP 2008148175A
Authority
JP
Japan
Prior art keywords
video
character string
subtitle
information
caption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006335297A
Other languages
English (en)
Inventor
Hiroyuki Morimoto
洋行 森本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2006335297A priority Critical patent/JP2008148175A/ja
Publication of JP2008148175A publication Critical patent/JP2008148175A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】字幕の一覧等が出力される時に、テロップの文字やフリップに書かれた文字等の映像に含まれる文字列も容易に出力されるようにする。
【解決手段】映像処理部105は、コンテンツに含まれる映像データを復号することによって、映像を表す映像フレームを生成するとともに、映像データに含まれる時間情報に基づいて、映像フレームの表示時刻情報を取得する。文字認識部106は、映像処理部105によって生成された映像フレームに基づいて、映像に含まれる文字列を認識し、認識した文字列を示す映像文字列情報を生成する。字幕処理部107は、コンテンツに含まれる字幕データに含まれる時間情報に基づいて、字幕の表示時刻情報を取得する。
【選択図】図1

Description

本発明は、例えば、テレビまたはラジオ等の放送波に含まれる文字情報を記録する装置に関し、より詳しくは、字幕を示す文字情報に加え、映像情報が示す映像に含まれる文字を示す情報をも文字情報として記録する技術に関する。
映像や音声だけでは視聴者に情報が伝わり難いような場合、付加情報として字幕やテロップが用いられる。特に、地上デジタル放送が開始され、字幕サービスの普及が進んでいる。字幕サービスによると、出演者が喋った言葉が文字列としてテレビジョン受信機等に表示される。地上デジタル放送では、出演者の話した内容の殆ど全てが字幕として表示される。字幕データは、音声データおよび映像データと比較して、記録に必要な容量が少ないという利点がある。例えば、出演者の話した内容を表す字幕データと、その内容を話す出演者の音声を表す音声データとを比較すると、字幕データの方が音声データよりもデータ量が小さく、小さい記憶容量で保存できる。また、字幕データは、適当な文字コード形式で保存することにより、処理能力の低い機器でも利用しやすくしたり、再利用しやすくできる。
特許文献1に記載された字幕処理装置は、受信したテレビ放送波から得られる字幕信号に基づいて、字幕文を文字コード(符号)形式で表したテキスト情報を生成し、内部に保存するようになっている。そして、保存したテキスト情報に基づいて、字幕の一覧をユーザーによるリモコン操作等に応じていつでもテレビモニタ等に表示できるようになっている。
特開2003−78889号公報 特開2003−18491号公報
ここで、上記特許文献1に記載された字幕処理装置では、放送局側で映像に合成されたテロップの文字、および出演者が保持するフリップに書かれた文字等は、字幕信号ではなく、映像信号に含まれる情報なので、テキスト情報として保存されない。しかし、字幕の一覧がテレビモニタ等に表示される時に、字幕に加え、テロップの文字やフリップに書かれた文字等も表示された方が、表示を視認するユーザーにとって番組内容等を理解しやすい場合がある。
本発明は、上記の点に鑑み、字幕の一覧等が出力される時に、テロップの文字やフリップに書かれた文字等の映像に含まれる文字列も容易に出力されるようにすることを目的とする。
上記の課題を解決するため、第1の字幕情報処理装置は、
コンテンツに含まれる映像データを復号することによって、映像を表す映像フレームを生成するとともに、上記映像データに含まれる時間情報に基づいて、上記映像フレームの表示時刻情報を取得する映像処理部と、
上記映像処理部によって生成された映像フレームに基づいて、上記映像に含まれる文字列を認識し、認識した文字列を示す映像文字列情報を生成する文字認識部と、
コンテンツに含まれる字幕データに含まれる時間情報に基づいて、字幕の表示時刻情報を取得する字幕処理部とを備えていることを特徴とする。
これにより、映像フレームおよび字幕の表示時刻情報に基づいて、映像に含まれる文字列を、表示時刻が同一の字幕の文字列と共に容易に出力できる。したがって、字幕の一覧等と共に、テロップの文字やフリップに書かれた文字等の映像に含まれる文字列が、容易に出力されるようになる。
また、第2の発明は、
第1の字幕情報処理装置において、
さらに、上記映像フレームの表示時刻情報と上記字幕の表示時刻情報とに基づいて、表示時刻が同一の上記映像文字列情報と上記字幕データから得られる字幕文字列情報とを、関連づけて出力する表示時刻情報参照部を備えていることを特徴とする。
これにより、表示時刻が同一の上記映像文字列情報および上記字幕文字列情報とが、関連づけて出力される。
また、第3の発明は、
第1の字幕情報処理装置において、
さらに、上記文字認識部によって生成された映像文字列情報および上記字幕データから得られる字幕文字列情報を記憶部に記録する記録部を備えていることを特徴とする。
これにより、記憶部に記憶された映像文字列情報および字幕文字列情報に基づいて、映像に含まれる文字列と字幕の文字列とが容易に出力される。
また、第4の発明は、
第1の字幕情報処理装置において、
上記字幕データは字幕PESであり、
さらに、上記文字認識部によって生成された映像文字列情報を、字幕PESのデータ形式に変換する字幕生成部と、
上記字幕生成部によって字幕PESのデータ形式に変換された映像文字列情報、および上記字幕データを記憶部に記録する記録部を備えていることを特徴とする。
これにより、字幕PESを処理可能な再生装置等が、この字幕情報処理装置によって記録された字幕データと映像文字列情報とを読み出すことによって、字幕の一覧等と共に、テロップの文字やフリップに書かれた文字等の映像に含まれる文字列を容易に出力できる。また、映像文字列情報は、字幕PESのデータ形式なので、映像文字列情報が映像信号の形式のデータとして出力される場合よりも、出力データの容量が小さくなる。
また、第5の発明は、
映像に含まれる文字列を示す映像文字列情報と、字幕の文字列を示す字幕文字列情報とを出力する文字列情報出力装置であって、
上記映像の表示時刻情報と上記字幕の表示時刻情報とに基づいて、表示時刻が同一の上記映像文字列情報と上記字幕文字列情報とを、関連づけて出力することを特徴とする。
また、第6の発明は、
文字列情報出力装置において、映像に含まれる文字列を示す映像文字列情報と、字幕の文字列を示す字幕文字列情報とを出力する文字列情報出力方法であって、
上記映像の表示時刻情報と上記字幕の表示時刻情報とに基づいて、表示時刻が同一の上記映像文字列情報と上記字幕文字列情報とを、関連づけて出力することを特徴とする。
これらにより、表示時刻が同一の上記映像文字列情報と上記字幕文字列情報とが関連づけて出力される。
また、第7の字幕情報処理装置は、
コンテンツに含まれる映像データから、映像信号を生成する映像処理部と、
コンテンツに含まれる字幕データから、字幕の文字列を示す字幕文字列情報を取得し、上記字幕文字列情報に基づいて、上記字幕の文字列を表す映像の映像信号を生成する字幕処理部と、
上記映像処理部によって生成された映像信号と上記字幕処理部によって生成された映像信号とを合成することによって、合成映像を表す合成映像信号を生成する映像合成部と、
上記映像合成部によって生成された合成映像信号に基づいて、上記合成映像に含まれる文字列を認識し、認識した文字列を示す合成映像文字列情報を生成する文字認識部とを備えていることを特徴とする。
これにより、合成映像文字列情報に基づいて、字幕の文字列と共に、映像に含まれる文字列を容易に出力できる。したがって、字幕の一覧等と共に、テロップの文字やフリップに書かれた文字等の映像に含まれる文字列が、容易に出力されるようになる。
また、第8の字幕情報処理装置は、
第7の字幕情報処理装置において、
さらに、上記文字認識部によって生成された合成映像文字列情報を記憶部に記録する記録部を備えていることを特徴とする。
これにより、記憶部に記憶された合成映像文字列情報に基づいて、映像に含まれる文字列と字幕の文字列とが容易に出力される。
また、第9の字幕情報処理装置は、
第7の字幕情報処理装置において、
さらに、上記文字認識部によって生成された合成映像文字列情報を、字幕PESのデータ形式に変換する字幕生成部と、
上記字幕生成部によって字幕PESのデータ形式に変換された合成映像文字列情報を記憶部に記録する記録部とを備えていることを特徴とする。
これにより、字幕PESを処理可能な再生装置等が、この字幕情報処理装置によって記録された合成映像文字列情報を読み出すことによって、字幕の一覧等と共に、テロップの文字やフリップに書かれた文字等の映像に含まれる文字列を容易に出力できる。また、映像文字列情報は、字幕PESのデータ形式なので、映像信号の形式のデータとして映像文字列情報が出力される場合よりも、出力データの容量が小さくなる。
本発明によると、字幕の一覧等が出力される時に、テロップの文字やフリップに書かれた文字等の映像に含まれる文字列も容易に出力されるようになる。
以下、本発明の実施形態について、図面を参照して説明する。なお、以下の各実施形態において、他の実施形態と同様の機能を有する構成要素については同一の符号を付して説明を省略する。
《実施形態1》
本発明の実施形態1に係る字幕情報処理装置は、図1に示すように、アンテナ101、チューナ部102、復調部103、トランスポートデコード部104、映像処理部105、文字認識部106、字幕処理部107、表示時刻情報参照部108、記録部109、記憶部110、および表示部111を備えている。
アンテナ101は、地上デジタル放送波を受信するようになっている。具体的には、アンテナ101は、ホイップ(ロッド)アンテナ、ダイポールアンテナ、八木・宇田アンテナ、パラボラアンテナ、ループアンテナ、または誘電体アンテナ等である。
チューナ部102は、アンテナ101によって受信された放送波を、指定されたチャンネルに対応する周波数に同調させることにより、選局を行うようになっている。
復調部103は、指定されたチャンネルを通じて受信された信号を、デジタルストリームデータ、具体的には、トランスポートストリーム(TS)に復調するようになっている。当該TSは、映像、音声、字幕、およびセクション情報等のデータが多重化されたものである。
トランスポートデコード部104は、復調されたデジタルストリーム(コンテンツ)を解析して、音声(オーディオ)、映像(ビデオ)、字幕、およびセクション情報等について、それぞれのPES(Packetized Elementary Stream、パケッタイズドエレメンタリーストリーム)を構築するようになっている。字幕を示すPES(以下、「字幕PES」と呼ぶ。)は、それぞれ、ヘッダ部分とペイロード(Payload)部分とを有する。ペイロード部分は、表示すべき字幕の字幕情報、または字幕の表示を制御するための制御符号を含み、ヘッダ部分は、字幕または制御符号を表示するタイミングを示す時間情報を含む。
映像処理部105は、トランスポートデコード部104によって構築された映像のPES(以下、「映像PES」と呼ぶ)(映像データ)を復号することによって、映像をYUVフォーマット、またはRGBフォーマットで表す映像信号(映像フレーム)を生成するようになっている。また、映像PESに含まれる時間情報に基づいて、生成した映像信号を出力する時刻を示す表示時刻情報を取得するようになっている。そして、生成した映像信号を図示しないメモリに保存するようになっている。なお、表示時刻情報の取得方法については、後に詳述する。
文字認識部106は、図示しないメモリに保存された映像信号に基づいて、所定の文字認識アルゴリズムを用いて映像に含まれる文字(画面中の文字)を識別し、1文字毎にJISコードに変換するようになっている。つまり、画面中の文字列をJISコード形式で表す映像文字列情報を生成するようになっている。
字幕処理部107は、トランスポートデコード部104によって構築された字幕PES(字幕データ)を解析し、復号することによって、字幕の文字列をJISコード形式で表す字幕文字列情報を生成するとともに、字幕PESに含まれる時間情報に応じたタイミングで、生成した字幕文字列情報を出力するようになっている。また、字幕処理部107は、字幕PESに含まれる時間情報に基づいて、字幕の文字列を表示する時刻を示す表示時刻情報を取得するようになっている。
表示時刻情報参照部108(文字列情報出力装置)は、文字認識部106によって生成された映像文字列情報と字幕処理部107によって生成された字幕文字列情報とを、映像処理部105によって取得された表示時刻情報と字幕処理部107によって取得された表示時刻情報とに基づいて同期させて出力するようになっている。これにより、表示時刻が同一の映像文字列情報と字幕文字列情報とが同一タイミングで出力される(関連づけて出力される)。
記録部109は、記憶部110に、文字認識部106によって生成された映像文字列情報と、字幕処理部107によって生成された字幕文字列情報とを順次記録するようになっている。映像文字列情報と字幕文字列情報は、表示時刻情報参照部108から出力されたタイミングの順に記録される。記憶部110は、メモリカード、光ディスク、磁気ディスク等の記録媒体、これら記録媒体を備えた機器、有線又は無線のネットワーク等で実現される。
表示部111は、ユーザからの再生指示により、記憶部110に記憶された文字列情報を読み出し、文字列を表示するようになっている。同一時刻の文字列は、例えば、一連の文字列として表示される等、関連づけられて表示される。このことは、映像文字列情報と字幕文字列情報とが、表示時刻情報参照部108によって同期して出力され、表示時刻情報参照部108から出力されたタイミングの順で記憶部110に記録されることによって可能になる。表示部111は、CRT(Cathod Ray Tube display)、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、または有機EL(Electroluminescence display)等の表示デバイスとそのインタフェースとから構成される。
次に、図2を用いて、本実施形態の字幕情報処理装置による文字情報の記録動作について説明する。
(S1001)チューナ部102は、ユーザからの指示により、アンテナ101によって受信されたデジタルテレビ放送の放送波を、視聴対象のチャンネルに同調させ、そのチャンネルのテレビ放送信号を受信する。
(S1002)チューナ部102によって受信されたテレビ放送信号は、復調部103により、デジタルストリームに復調される。
(S1003)復調されたデジタルストリームは、トランスポートデコード部104によって、映像、音声、字幕、およびセクション情報等の各トランスポートストリームに分離される。分離された各トランスポートストリームはパケット化され、映像、音声、字幕、およびセクション情報等の各PESが構築される。
(S1004)構築された各PESは、それぞれ、映像処理部105、字幕処理部107、または図示しない音声処理部に入力される。映像処理部105は、トランスポートデコード部104から映像PESが入力されると動作を開始する。映像処理部105に入力された各映像PESは、複数フレーム分の画像を含んでいるが、映像処理部105によって1フレーム単位に分割される。次に、映像処理部105は、各フレームの映像を表示する時刻を示す表示時刻情報を取得する。
ここで、映像処理部105が表示時刻情報を取得する方法について具体的に説明する。まず、映像PESは、図3に示すように、ヘッダ部分とペイロード(Payload)部分から構成され、ヘッダ部分は、そのパケットの先頭にあるフレームの映像(1画面の映像)を表示するタイミングを示す時間情報を含む。この時間情報は、一般に、PTS(Presentation Time Stamp)と呼ばれるものである。ペイロード部分は、複数のフレームを含む。各フレームには、映像を示す映像情報と前のフレームの映像を表示してから当該映像を表示するタイミングまでの時間を示す時間情報が含まれる。この時間情報は、前のフレームからの遅延時間、つまり相対時間を示し、一般に、Supplimental enhancement informationと呼ばれるものである。映像処理部105は、映像PESのヘッダ部分に含まれる時間情報と、各フレームに含まれる時間情報とを解析することによって、各フレームの映像を表示する時刻を示す表示時刻情報を取得する。先頭以外のフレームの映像の表示時間情報は、前のフレームの表示時刻に、そのフレームに含まれる時間情報によって示される相対時間を加算した時刻を示すものとなる。
映像処理部105は、取得した表示時刻情報で示される時刻順に、各フレームをデコードし、YUVやRGB等の映像信号のフォーマットで図示しないメモリに保存する。
(S1005)メモリに保存された映像信号は、文字認識部106によって処理される。まず、文字認識部106は、メモリに保存された映像信号で示される映像にテロップやフリップ等の文字列(文字映像)が含まれているかどうか判定する。文字列が含まれていない場合には(S1006)に進む。文字列が含まれている場合には(S1007)に進む。
(S1006)後述する文字列保存領域を初期化し、(S1004)に戻り、新たな映像PESが映像処理部105に入力されるのを待つ。
(S1007)文字認識部106は、文字認識アルゴリズムを用いて、文字を認識し、一文字毎にJISコードに変換し、映像文字列情報を生成する。
図4は、(S1005)と(S1007)の処理内容の例を示す説明図である。
(1)文字認識部106は、(S1005)で映像信号で示される映像に文字列を含む文字映像が含まれていると判定する。
(2)文字認識部106は、(S1007)で、文字映像を1文字分毎に映像から切り出す。
(3)文字認識部106は、(S1007)で、切り出した各文字映像から文字を認識し、JISコードに変換する。例えば、図4において、「綺」という文字が認識され、「653A」というJISコードに変換されている。
なお、ここで用いられる文字認識アルゴリズムについては、すでに多くの実現手段が知られているので、詳細な説明を省略するが、既存の実現手段のどれを用いても良い。また、精度を向上させるために既存の実現手段を複数組み合わせて用いてもよい。
なお、(S1005)での判定処理の前、または(S1007)で文字認識を行う前に、認識率を高めるために、映像信号に対し、輪郭強調やコントラスト調整などの画像処理を行うようにしてもよい。
(S1008)文字認識部106によって生成された映像文字列情報は、メモリに確保された文字列保存領域に保存された文字列と比較される。この文字列保存領域には、前回記憶部110に保存された文字列がキャッシュとして保存されている。すなわち、文字認識アルゴリズムによって新たに認識された文字列が、前回認識された文字列と同じであるか否かが比較判定される。同じであった場合には、前回認識されたテロップまたはフリップ等が引き続き表示されていると判定され、(S1004)に戻る。異なっていた場合には、新たなテロップやフリップが表示されたと判定され、(S1009)に進む。
(S1009)新たな映像文字列情報が文字列保存領域に保存された後、記録部109に出力される。
(S1010)字幕処理部107は、トランスポートデコード部104から字幕PESが入力されると動作を開始する。したがって、前述の映像処理部105と字幕処理部107は平行または並列に動作する。
字幕処理部107は、まず字幕PESのヘッダ部分に含まれる時間情報を解析して、字幕の表示時刻情報を取得する。この表示時刻情報を取得するために、必要に応じてペイロード部分に含まれる時間情報をも解析する。次に、入力された字幕PESのペイロード部分を解析し、字幕を1文字毎にJISコード形式に変換し、字幕文字列情報を生成する。
(S1011)表示時刻情報参照部108は、文字認識部106によって生成された映像文字列情報と字幕処理部107によって生成された字幕文字列情報とを、映像処理部105によって取得された表示時刻情報と字幕処理部107によって取得された表示時刻情報とに基づいて、同期させて出力する。
文字認識部106と字幕処理部107は、それぞれ、前段から処理対象のデータが入力されると処理を開始するイベントドリブン形式で平行または並列に動作する。したがって、表示時刻情報参照部108において、文字認識部106による映像文字列情報の入力と、字幕処理部107による字幕文字列情報の入力とが、競合したり混じり合ったりしないように排他制御等の処理が行われる。
(S1012)記録部109は、記憶部110に、表示時刻情報参照部108から入力される映像文字列情報と字幕文字列情報とを順次記録する。映像文字列情報は、文字コード形式なので、映像データ等を記録する場合よりも、効率的に記録できる。
ユーザは、図示しないボタン、キーボード、タッチパネルなどのマンマシンインタフェースを介して、記憶部110に保存された文字列を表示部111に表示させることができる。記憶部110には、映像信号から得られる映像に含まれる文字列を文字コード形式で表す映像文字列情報が記憶されているので、表示部111は、この情報を読み出すことによって、映像に含まれる文字列を容易に表示できる。ユーザは、表示された文字列を視認することによって、番組内容等をよりよく理解できる。
また、映像文字列情報と字幕文字列情報とが、表示時刻情報参照部108によって同期して出力され、表示時刻情報参照部108から出力されたタイミングの順で記憶部110に記録されているので、表示部111は、同一時刻の字幕の文字列と映像に含まれる文字列とを、例えば、一連の文字列として表示する等、関連づけて表示できる。
なお、表示部111に表示させる代わりに記憶部110に記録された文字列情報が外部に取り出されるようにしてもよい。この場合には、記憶部110そのものが取り外されるようにしてもよいし、記憶部110とは別の記憶装置が接続され、そこに記憶部110に記録された文字列情報が移動、またはコピーされるようにしてもよい。
《実施形態1の変形例》
なお、図5に示すように、実施形態1の変形例の字幕情報処理装置は、表示時刻情報参照部121を記憶部110と表示部111の間に備えている。
本変形例において、記録部109は、映像文字列情報と字幕文字列情報とに加え、映像処理部105によって取得された表示時刻情報と字幕処理部107によって取得された表示時刻情報とを記憶部110に記録する。
表示時刻情報参照部121(文字列情報出力装置)は、ユーザからの再生指示により、記憶部110に記録された映像文字列情報と字幕文字列情報とを、記憶部110に記録された両者の表示時刻情報に応じて、表示時刻が同一の文字列情報が連続するように出力する(関連づけて出力する)。
表示部111は、表示時刻情報参照部121によって出力された映像文字列情報と字幕文字列情報に基づいて、順次文字列を表示する。表示時刻情報参照部121によって、表示時刻が同一の文字列情報が連続するように出力されているので、表示時刻が同一の文字列は、連続する文字列として表示される。
《実施形態2》
本発明の実施形態2に係る字幕情報処理装置は、図6に示すように、実施形態1の字幕情報処理装置の字幕処理部107に代えて、字幕処理部201を備え、また、字幕生成部202をさらに備えている。
字幕処理部201は、トランスポートデコード部104によって構築された字幕PESに含まれる時間情報を解析し、字幕の表示時刻を示す表示時刻情報を取得し、その表示時刻情報に応じたタイミングで、その字幕PESを出力するようになっている。
字幕生成部202は、文字認識部106から出力された映像文字列情報を、字幕PESのデータ形式(フォーマット)に変換して出力するようになっている。つまり、その映像文字列情報で表される字幕を表す適切な字幕PESを出力するようになっている。ここで、字幕PESを生成するために、映像処理部105によって解析された映像PESに含まれる時間情報が利用される。
表示時刻情報参照部108は、字幕生成部202によって字幕PESのデータ形式に変換された映像文字列情報と字幕処理部201によって出力された字幕PES(字幕データ)とを、映像処理部105によって取得された表示時刻情報と字幕処理部201によって取得された表示時刻情報とに基づいて同期させて出力するようになっている。これにより、表示時刻が同一の上記映像文字列情報と上記字幕文字列情報とが同一タイミングで出力される(関連づけて出力される)。
記録部109は、記憶部110に、字幕処理部201によって出力された字幕PESと、字幕生成部202から出力された字幕PESのデータ形式の映像文字列情報とを順次記録するようになっている。字幕PESと映像文字列情報とは、表示時刻情報参照部108から出力されたタイミングの順に記録される。
以上の構成により、記憶部110には、字幕PESが連続して記録される。そして、記憶部110で、放送波から得られる本来の字幕PESと、映像に含まれるテロップやフリップ等の文字列を認識することによって生成された字幕PESとが混在して保存される。よって、保存された字幕PESに基づいて、字幕の文字列と映像に含まれる文字列とを、一般的な字幕PESを処理可能な表示部(再生装置等)を用いて表示できる。したがって、字幕情報処理装置の汎用性が向上する。また、文字色の設定やフラッシュ等の表示利点がある。
また、映像文字列情報と字幕PESとが、表示時刻情報参照部108によって同期して出力され、表示時刻情報参照部108から出力されたタイミングの順で記憶部110に記録されているので、表示部111は、同一時刻の文字列を、例えば、一連の文字列として表示する等、関連づけて表示できる。
さらに、記憶部110にPAT(Program Association Table)、PMT(Program Map Table)などのセクション情報を保存することにより、より一般的なテレビ受信機で映像に含まれる文字列を再生できるようにしてもよい。
《実施形態3》
本発明の実施形態3に係る字幕情報処理装置は、図7に示すように、実施形態1の字幕情報処理装置の字幕処理部107に代えて、字幕処理部301を備え、また、映像合成部302をさらに備えている。また、表示時刻情報参照部108を備えていない。
字幕処理部301は、実施形態1の字幕処理部107の機能に加え、字幕文字列情報に基づいて、その字幕文字列情報によって示された字幕の文字列を表す映像を、YUVフォーマット、またはRGBフォーマット等のフォーマットで表す映像信号を生成し、図示しないメモリに保存するようになっている。
映像合成部302は、映像処理部105によって生成された映像信号と字幕処理部301とによって生成された映像信号とを、図示しないメモリから読み出して合成することによって、一つの合成映像(合成画像)を表す合成映像信号を生成するようになっている。合成映像信号によって表される映像には、字幕処理部301から出力された映像信号によって表される字幕の文字列と、映像処理部105から出力された映像信号によって表される映像との両方が含まれる。映像の合成には、アルファ合成、または加算合成等の既存の手法を用いればよい。
文字認識部106は、映像合成部302によって生成された合成映像信号に基づいて、所定の文字認識アルゴリズムを用いて合成映像に含まれる文字列を認識し、認識した文字列をJISコード形式で示す合成映像文字列情報を生成するようになっている。
記録部109は、文字認識部106によって生成された合成映像文字列情報を、記憶部110に記録するようになっている。
地上デジタル放送の字幕は、画面上の任意の場所に表示可能である。本実施形態によると、字幕処理部301によって処理される字幕PESで表される字幕と、映像に含まれるテロップおよびフリップ内の文字等との位置関係を再現でき、文字情報から番組内容を推測することがより容易になる。
《実施形態3の変形例》
なお、図8に示すように、文字認識部106によって生成された合成映像文字列情報を字幕PESのデータ形式(フォーマット)に変換して出力する字幕生成部202を、文字認識部106と記録部109との間に設け、記録部109が合成映像文字列情報を字幕PESのデータ形式で記憶部110に記録(保存)するようにしてもよい。この場合にも、実施形態2と同様に、保存された字幕PESに基づいて、字幕の文字列と映像に含まれる文字列とを、一般的な字幕PESを処理可能な表示部(再生装置等)を用いて表示できるという利点がある。
《その他の実施形態》
なお、実施形態1〜3において、文字認識部106は、画面中の文字列をJISコード形式で表す映像文字列情報を出力するようになっている。しかし、JISコードに限らず、シフトJISコード、日本語EUCコード、Unicode、または8単位符号等の他の文字コード形式で文字列を表す映像文字列情報を出力するようにしてもよい。
また、実施形態1、3において、字幕処理部107、301は、字幕を8単位符号を用いてコード化した地上デジタル放送の字幕情報を、字幕をJISコード形式で表す字幕文字列情報に変換するようになっている。しかし、字幕処理部107、301によって変換が行われずに字幕文字列情報が字幕情報の形式のままで出力され、記憶部110に記録されるようにしてもよい。また、字幕処理部107、301によって、JISコード形式への変換に代えて、シフトJISコード、日本語EUCコード、またはUnicode等の他の文字コード形式への変換が行われ、変換後の字幕文字列情報が記憶部110に記録されるようにしてもよい。ただし、字幕処理部107、301によって出力される字幕文字列情報と文字認識部106によって出力される映像文字列情報とは、同じデータ形式である必要がある。
また、上記実施形態において、文字認識部106が、画面中の文字列の前と後との少なくとも一方に“「”や“」”といったカギ括弧記号等の区切りを表す特定の記号が加えられた文字列を表す映像文字列情報を出力するようにしてもよい。また、字幕処理部107が、字幕の文字列の前と後との少なくとも一方に“(”や“)”といった括弧記号等の区切りを表す特定の記号が加えられた文字列を表す字幕文字列情報を出力するようにしてもよい。このような映像文字列情報、または字幕文字列情報に基づいて文字列が表示部111に表示されることにより、ユーザは、文字認識部106によって認識された画面中の文字列と、字幕の文字列とを判別できる。
本発明に係る字幕情報処理装置は、字幕の一覧等が出力される時に、テロップの文字やフリップに書かれた文字等の映像に含まれる文字列も容易に出力されるようになるという効果を有し、例えば、テレビまたはラジオ等の放送波に含まれる文字情報を記録する装置等として有用である。
本発明の実施形態1に係る字幕情報処理装置の構成を示すブロック図である。 同、字幕情報処理装置の動作を示すフローチャートである。 同、映像PESのデータ構成を示す説明図である。 同、文字認識部106の処理内容の例を示す説明図である。 本発明の実施形態1の変形例に係る字幕情報処理装置の構成を示すブロック図である。 本発明の実施形態2に係る字幕情報処理装置の構成を示すブロック図である。 本発明の実施形態3に係る字幕情報処理装置の構成を示すブロック図である。 本発明の実施形態3の変形例に係る字幕情報処理装置の構成を示すブロック図である。
符号の説明
101 アンテナ
102 チューナ部
103 復調部
104 トランスポートデコード部
105 映像処理部
106 文字認識部
107 字幕処理部
108 表示時刻情報参照部
109 記録部
110 記憶部
111 表示部
121 表示時刻情報参照部
201 字幕処理部
202 字幕生成部
301 字幕処理部
302 映像合成部

Claims (9)

  1. コンテンツに含まれる映像データを復号することによって、映像を表す映像フレームを生成するとともに、上記映像データに含まれる時間情報に基づいて、上記映像フレームの表示時刻情報を取得する映像処理部と、
    上記映像処理部によって生成された映像フレームに基づいて、上記映像に含まれる文字列を認識し、認識した文字列を示す映像文字列情報を生成する文字認識部と、
    コンテンツに含まれる字幕データに含まれる時間情報に基づいて、字幕の表示時刻情報を取得する字幕処理部とを備えていることを特徴とする字幕情報処理装置。
  2. 請求項1の字幕情報処理装置において、
    さらに、上記映像フレームの表示時刻情報と上記字幕の表示時刻情報とに基づいて、表示時刻が同一の上記映像文字列情報と上記字幕データから得られる字幕文字列情報とを、関連づけて出力する表示時刻情報参照部を備えていることを特徴とする字幕情報処理装置。
  3. 請求項1の字幕情報処理装置において、
    さらに、上記文字認識部によって生成された映像文字列情報および上記字幕データから得られる字幕文字列情報を記憶部に記録する記録部を備えていることを特徴とする字幕情報処理装置。
  4. 請求項1の字幕情報処理装置において、
    上記字幕データは字幕PESであり、
    さらに、上記文字認識部によって生成された映像文字列情報を、字幕PESのデータ形式に変換する字幕生成部と、
    上記字幕生成部によって字幕PESのデータ形式に変換された映像文字列情報、および上記字幕データを記憶部に記録する記録部を備えていることを特徴とする字幕情報処理装置。
  5. 映像に含まれる文字列を示す映像文字列情報と、字幕の文字列を示す字幕文字列情報とを出力する文字列情報出力装置であって、
    上記映像の表示時刻情報と上記字幕の表示時刻情報とに基づいて、表示時刻が同一の上記映像文字列情報と上記字幕文字列情報とを、関連づけて出力することを特徴とする文字列情報出力装置。
  6. 文字列情報出力装置において、映像に含まれる文字列を示す映像文字列情報と、字幕の文字列を示す字幕文字列情報とを出力する文字列情報出力方法であって、
    上記映像の表示時刻情報と上記字幕の表示時刻情報とに基づいて、表示時刻が同一の上記映像文字列情報と上記字幕文字列情報とを、関連づけて出力することを特徴とする文字列情報出力方法。
  7. コンテンツに含まれる映像データから、映像信号を生成する映像処理部と、
    コンテンツに含まれる字幕データから、字幕の文字列を示す字幕文字列情報を取得し、上記字幕文字列情報に基づいて、上記字幕の文字列を表す映像の映像信号を生成する字幕処理部と、
    上記映像処理部によって生成された映像信号と上記字幕処理部によって生成された映像信号とを合成することによって、合成映像を表す合成映像信号を生成する映像合成部と、
    上記映像合成部によって生成された合成映像信号に基づいて、上記合成映像に含まれる文字列を認識し、認識した文字列を示す合成映像文字列情報を生成する文字認識部とを備えていることを特徴とする字幕情報処理装置。
  8. 請求項7の字幕情報処理装置において、
    さらに、上記文字認識部によって生成された合成映像文字列情報を記憶部に記録する記録部を備えていることを特徴とする字幕情報処理装置。
  9. 請求項7の字幕情報処理装置において、
    さらに、上記文字認識部によって生成された合成映像文字列情報を、字幕PESのデータ形式に変換する字幕生成部と、
    上記字幕生成部によって字幕PESのデータ形式に変換された合成映像文字列情報を記憶部に記録する記録部とを備えていることを特徴とする字幕情報処理装置。
JP2006335297A 2006-12-13 2006-12-13 字幕情報処理装置、文字列情報出力装置、および文字列情報出力方法 Pending JP2008148175A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006335297A JP2008148175A (ja) 2006-12-13 2006-12-13 字幕情報処理装置、文字列情報出力装置、および文字列情報出力方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006335297A JP2008148175A (ja) 2006-12-13 2006-12-13 字幕情報処理装置、文字列情報出力装置、および文字列情報出力方法

Publications (1)

Publication Number Publication Date
JP2008148175A true JP2008148175A (ja) 2008-06-26

Family

ID=39607827

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006335297A Pending JP2008148175A (ja) 2006-12-13 2006-12-13 字幕情報処理装置、文字列情報出力装置、および文字列情報出力方法

Country Status (1)

Country Link
JP (1) JP2008148175A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010136067A (ja) * 2008-12-04 2010-06-17 Sony Corp データ処理装置、データ処理方法、及び、プログラム
JP2018098631A (ja) * 2016-12-13 2018-06-21 パイオニア株式会社 表示制御装置及び表示制御方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010136067A (ja) * 2008-12-04 2010-06-17 Sony Corp データ処理装置、データ処理方法、及び、プログラム
US8781291B2 (en) 2008-12-04 2014-07-15 Sony Corporation Data processing device, data processing method, and program
JP2018098631A (ja) * 2016-12-13 2018-06-21 パイオニア株式会社 表示制御装置及び表示制御方法

Similar Documents

Publication Publication Date Title
JP5423425B2 (ja) 画像処理装置
JP2004080476A (ja) ディジタル映像再生装置
JP2009164655A (ja) 字幕情報送出装置、字幕情報処理装置およびこれら装置の連携方法
JPWO2006092993A1 (ja) 字幕表示装置
JP4384074B2 (ja) 放送コンテンツ処理装置及びその制御方法
JP2006025422A (ja) オーディオビデオデータストリームの字幕を通じてナビゲートするための方法および装置
JP5110978B2 (ja) 送信装置、受信装置及び再生装置
US20100251294A1 (en) Moving image processor and moving image processing method
JP2006245907A (ja) 放送記録再生装置
JP2002271710A (ja) デジタル放送受信装置
JP4587821B2 (ja) 映像再生装置
JP2008148175A (ja) 字幕情報処理装置、文字列情報出力装置、および文字列情報出力方法
JP2010124429A (ja) 映像処理装置、映像処理方法及び映像処理プログラム
KR20070047665A (ko) 방송수신장치, 방송송신장치, 방송 시스템 및 그 제어방법
WO2014207874A1 (ja) 電子機器、出力方法およびプログラム
JP2004172864A (ja) 字幕表示制御装置
JP5110521B2 (ja) 字幕付映像再生装置及びプログラム
JP2009152753A (ja) 映像表示装置
JP2002300492A (ja) 放送受信装置及び番組表示方法
KR20040004390A (ko) 픽셀 데이터 버퍼링을 위한 방법 및 시스템
KR100407837B1 (ko) 스틸 이미지를 캡쳐할 수 있는 셋탑 박스 및 이를 이용한스틸 이미지 캡쳐 방법
JP5311448B2 (ja) 字幕付映像再生装置、字幕付映像再生方法及びプログラム
JP2008172439A (ja) デジタルコンテンツ処理装置
JP4515820B2 (ja) 情報表示装置
JP2008147917A (ja) デジタルコンテンツ処理装置