[go: up one dir, main page]

JP2010021638A - Device and method for adding tag information, and computer program - Google Patents

Device and method for adding tag information, and computer program Download PDF

Info

Publication number
JP2010021638A
JP2010021638A JP2008178092A JP2008178092A JP2010021638A JP 2010021638 A JP2010021638 A JP 2010021638A JP 2008178092 A JP2008178092 A JP 2008178092A JP 2008178092 A JP2008178092 A JP 2008178092A JP 2010021638 A JP2010021638 A JP 2010021638A
Authority
JP
Japan
Prior art keywords
tag information
voice
current position
recognized
image frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008178092A
Other languages
Japanese (ja)
Other versions
JP4866396B2 (en
Inventor
Hiroshi Sasaki
宏 佐々木
Hirotoshi Iwasaki
弘利 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2008178092A priority Critical patent/JP4866396B2/en
Publication of JP2010021638A publication Critical patent/JP2010021638A/en
Application granted granted Critical
Publication of JP4866396B2 publication Critical patent/JP4866396B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To generate tag information for searching the desired image frame of a user automatically and to add the tag information for a plurality of image frames. <P>SOLUTION: Based on the current position and map data detected by a GPS section 14, a moving picture processing device 16 extracts a geographical name near the current position as a perimeter keyword and recognizes the voice by means of a voice recognition unit 15, adds the perimeter keyword as the tag information to an image frame at a time point when the current position is detected if the voice is not recognized, and adds a noun extracted from the recognized voice as the tag information to an image frame at a time point when the voice is detected if the voice is recognized. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を付加するタグ情報付加装置、タグ情報付加方法及びコンピュータプログラムに関する。
本発明は特に、ビデオカメラにより撮影された動画像ファイルや、スチルカメラなどにより撮影された静止画ファイルを構成する複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加するタグ情報付加装置、タグ情報付加方法及びコンピュータプログラムに関する。
The present invention relates to a tag information adding device, a tag information adding method, and a computer program for adding tag information for searching a user's desired image frame to a plurality of image frames.
The present invention particularly relates to tag information for searching for a desired image frame of a user for a plurality of image frames constituting a moving image file shot by a video camera or a still image file shot by a still camera or the like. The present invention relates to a tag information adding device, a tag information adding method, and a computer program.

従来技術として下記の特許文献1には、作業者が再生中の動画の所望のフレームなどを強調表示させるためにそのフレームにタグを付加するための入力操作を行う方法が記載されている。また、他の従来技術として下記の特許文献2には、作業者が画像フレーム内の所望の部分領域にキー画像を付加するための入力操作を行う方法が記載されている。
特開2005−181599号公報(図13) 特開2007−19768号公報(図10)
As a conventional technique, Patent Document 1 below describes a method in which an operator performs an input operation for adding a tag to a frame in order to highlight a desired frame of a moving image being reproduced. Further, as another conventional technique, Patent Document 2 below describes a method in which an operator performs an input operation for adding a key image to a desired partial area in an image frame.
Japanese Patent Laying-Open No. 2005-181599 (FIG. 13) Japanese Patent Laying-Open No. 2007-19768 (FIG. 10)

しかしながら、上記従来技術では、作業者がタグを付加するための入力操作を行う必要があるので、入力操作作業に膨大な時間がかかるという問題点がある。   However, the above-described conventional technique has a problem that it takes an enormous amount of time for the input operation work because the operator needs to perform an input operation for adding a tag.

本発明は上記従来技術の問題点に鑑み、動画像ファイルや静止画ファイルを構成する複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加することができるタグ情報付加装置、タグ情報付加方法及びコンピュータプログラムを提供することを目的とする。   In view of the above problems of the prior art, the present invention automatically generates tag information for searching for a desired image frame for a plurality of image frames constituting a moving image file or a still image file. It is an object to provide a tag information adding device, a tag information adding method, and a computer program that can be added.

本発明は上記目的を達成するために、撮像手段により撮像されて生成された複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加するタグ情報付加装置であって、
前記撮像手段による撮像中に前記撮像手段の現在位置を検出する現在位置検出手段と、
前記現在位置検出手段により検出された現在位置に基づき、地理的な名称を有する地図データを用いて、現在位置近傍の地理的な名称を周辺キーワードとして抽出する周辺キーワード抽出手段と、
前記撮像手段による撮像中にユーザの音声を認識する音声認識手段と、
前記音声認識手段により音声が認識されない場合に、前記周辺キーワード抽出手段により抽出された周辺キーワードを、前記現在位置が検出された時点の画像フレームに対してタグ情報として付加する第1のタグ情報付加手段と、
前記音声認識手段により音声が認識された場合に、認識された音声から名詞を抽出して前記音声が認識された時点の画像フレームに対してタグ情報として付加する第2のタグ情報付加手段とを、
備えたことを特徴とする。
In order to achieve the above object, the present invention automatically generates and adds tag information for searching for a user's desired image frame to a plurality of image frames captured and generated by the imaging means. A tag information adding device,
A current position detecting means for detecting a current position of the imaging means during imaging by the imaging means;
Based on the current position detected by the current position detection means, using map data having a geographical name, a peripheral keyword extraction means for extracting a geographical name near the current position as a peripheral keyword;
Voice recognition means for recognizing a user's voice during imaging by the imaging means;
First tag information addition for adding the peripheral keyword extracted by the peripheral keyword extraction unit as tag information to the image frame at the time when the current position is detected when no voice is recognized by the voice recognition unit Means,
Second tag information adding means for extracting a noun from the recognized voice and adding it as tag information to the image frame at the time when the voice is recognized when the voice is recognized by the voice recognition means; ,
It is characterized by having.

また、前記第2のタグ情報付加手段は、前記抽出した名詞と、前記周辺キーワード抽出手段により抽出された周辺キーワードを比較し、一致した名詞を前記音声が認識された時点の画像フレームに対してタグ情報として付加することを特徴とする。
また、前記第1、第2のタグ情報付加手段はそれぞれ、前記現在位置が検出された時点の画像フレーム、前記音声が認識された時点の画像フレームから所定数の画像フレームに対して同じタグ情報を付加することを特徴とする。
また、前記複数の画像フレームは、前記撮像手段として用いられるビデオカメラにより撮影された動画データであることを特徴とする。
また、前記複数の画像フレームは、前記撮像手段として用いられるスチルカメラ又は携帯電話機に内蔵されたカメラにより撮影された静止画ファイルであることを特徴とする。
Further, the second tag information adding means compares the extracted noun with the peripheral keyword extracted by the peripheral keyword extracting means, and matches the noun to the image frame at the time when the voice is recognized. It is added as tag information.
Further, the first and second tag information adding means respectively have the same tag information for a predetermined number of image frames from the image frame when the current position is detected and the image frame when the sound is recognized. Is added.
Further, the plurality of image frames are moving image data shot by a video camera used as the imaging means.
Further, the plurality of image frames are still image files taken by a still camera used as the imaging unit or a camera built in a mobile phone.

本発明は上記目的を達成するために、撮像手段により撮像されて生成された複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加するタグ情報付加方法であって、
前記撮像手段による撮像中に前記撮像手段の現在位置を検出する現在位置検出ステップと、
前記現在位置検出手段により検出された現在位置と地図データに基づいて、現在位置近傍の地理的な名称を周辺キーワードとして抽出する周辺キーワード抽出ステップと、
前記撮像手段による撮像中にユーザの音声を認識する音声認識ステップと、
前記音声認識手段により音声が認識されない場合に、前記周辺キーワード抽出手段により抽出された周辺キーワードを、前記現在位置が検出された時点の画像フレームに対してタグ情報として付加する第1のタグ情報付加ステップと、
前記音声認識手段により音声が認識された場合に、認識された音声から名詞を抽出して前記音声が認識された時点の画像フレームに対してタグ情報として付加する第2のタグ情報付加ステップとを、
備えたことを特徴とする。
In order to achieve the above object, the present invention automatically generates and adds tag information for searching for a user's desired image frame to a plurality of image frames captured and generated by the imaging means. Tag information adding method,
A current position detecting step for detecting a current position of the imaging means during imaging by the imaging means;
Based on the current position detected by the current position detection means and map data, a peripheral keyword extraction step for extracting a geographical name near the current position as a peripheral keyword;
A voice recognition step of recognizing a user's voice during imaging by the imaging means;
First tag information addition for adding the peripheral keyword extracted by the peripheral keyword extraction unit as tag information to the image frame at the time when the current position is detected when no voice is recognized by the voice recognition unit Steps,
A second tag information adding step for extracting a noun from the recognized voice and adding it as tag information to the image frame at the time when the voice is recognized when the voice is recognized by the voice recognition means; ,
It is characterized by having.

本発明は上記目的を達成するために、撮像手段により撮像されて生成された複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報をコンピュータが自動的に生成して付加するためのコンピュータプログラムであって、
前記撮像手段による撮像中に前記撮像手段の現在位置を検出する現在位置検出ステップと、
前記現在位置検出手段により検出された現在位置と地図データに基づいて、現在位置近傍の地理的な名称を周辺キーワードとして抽出する周辺キーワード抽出ステップと、
前記撮像手段による撮像中にユーザの音声を認識する音声認識ステップと、
前記音声認識手段により音声が認識されない場合に、前記周辺キーワード抽出手段により抽出された周辺キーワードを、前記現在位置が検出された時点の画像フレームに対してタグ情報として付加する第1のタグ情報付加ステップと、
前記音声認識手段により音声が認識された場合に、認識された音声から名詞を抽出して前記音声が認識された時点の画像フレームに対してタグ情報として付加する第2のタグ情報付加ステップとを、
備えたことを特徴とする。
In order to achieve the above object, in the present invention, a computer automatically generates tag information for searching for a desired image frame of a user for a plurality of image frames captured and generated by an imaging means. A computer program for adding,
A current position detecting step for detecting a current position of the imaging means during imaging by the imaging means;
Based on the current position detected by the current position detection means and map data, a peripheral keyword extraction step for extracting a geographical name near the current position as a peripheral keyword;
A voice recognition step of recognizing a user's voice during imaging by the imaging means;
First tag information addition for adding the peripheral keyword extracted by the peripheral keyword extraction unit as tag information to the image frame at the time when the current position is detected when no voice is recognized by the voice recognition unit Steps,
A second tag information adding step for extracting a noun from the recognized voice and adding it as tag information to the image frame at the time when the voice is recognized when the voice is recognized by the voice recognition means; ,
It is characterized by having.

この構成により、動画像ファイルや静止画ファイルを構成する複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加することができる。   With this configuration, tag information for searching for a user's desired image frame can be automatically generated and added to a plurality of image frames constituting a moving image file or a still image file.

本発明によれば、撮像手段により撮像されて生成された動画像ファイルや静止画ファイルを構成する複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加することができる。   According to the present invention, tag information for searching for a desired image frame of a user is automatically added to a plurality of image frames constituting a moving image file or a still image file generated by being imaged by an imaging means. Can be generated and added.

以下、図面を参照して本発明の実施の形態について説明する。図1は本発明に係るタグ情報付加装置の一実施の形態を示すブロック図、図2は図1の動画処理装置の動作を説明するためのフローチャートである。   Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing an embodiment of a tag information adding apparatus according to the present invention, and FIG. 2 is a flowchart for explaining the operation of the moving picture processing apparatus of FIG.

図1において、撮像手段である車外カメラ11は不図示の車両の例えば前方などの周辺動画を撮影し、他の撮像手段である車内カメラ12は車両内の例えば運転者などの車内動画を撮影するように配置される。車内マイク13は車両内の運転者などの声を録音し、GPS(Global Positioning System)部14は車両の現在位置(緯度、経度)を取得する。音声認識装置15は車内マイク13により録音された音声を認識する。動画処理装置16は、車外カメラ11、車内カメラ12により撮影された各動画を構成する複数フレームのうちの任意のフレームに対して、車内マイク13及び音声認識装置15により得られた音声データと、GPS部14により取得された現在位置に基づいて検索用のタグなどを自動的に生成して付加し、タグ付き動画データとして動画記録装置17に記録する。ここで、動画処理装置16は地図データをあらかじめストアしており、現在位置近傍における地理的な名称(地名や、山、川、橋、ビルなどの名前)を地図データから周辺キーコードとして取得することができる。取得する周辺キーコードの数は、複数が望ましく、例えば20個程度とする。   In FIG. 1, an outside camera 11 that is an image capturing unit captures a surrounding moving image of a vehicle (not shown) such as a front, and an in-vehicle camera 12 that is another image capturing unit captures an in-vehicle moving image such as a driver inside the vehicle. Are arranged as follows. The in-vehicle microphone 13 records the voice of the driver in the vehicle, and the GPS (Global Positioning System) unit 14 acquires the current position (latitude, longitude) of the vehicle. The voice recognition device 15 recognizes the voice recorded by the in-vehicle microphone 13. The moving image processing device 16 is configured to obtain audio data obtained by the in-vehicle microphone 13 and the voice recognition device 15 for an arbitrary frame among a plurality of frames constituting each moving image captured by the in-vehicle camera 11 and the in-vehicle camera 12; A search tag or the like is automatically generated and added based on the current position acquired by the GPS unit 14 and recorded in the moving image recording device 17 as tagged moving image data. Here, the moving image processing device 16 stores map data in advance, and acquires a geographical name (name of place, name of mountain, river, bridge, building, etc.) in the vicinity of the current position as a peripheral key code from the map data. be able to. The number of peripheral key codes to be acquired is preferably a plurality, for example, about 20.

図2を参照して動画処理装置16の動作を説明する。ここで、動画データの動画情報の構成は、動画データ名(例えば撮影順を示す番号)と、ユーザの所望の画像フレームを検索するためのタグとなるキーワードと、同じタグが付与される開始フレーム番号及び終了フレーム番号と位置データ(緯度、経度)などを含む。ここで、検索表示時に見やすいように、同じタグが付与されるフレーム数を一義的に100フレーム(=1ブロック)とする。   The operation of the moving image processing device 16 will be described with reference to FIG. Here, the structure of the moving image information of the moving image data includes a moving image data name (for example, a number indicating the shooting order), a keyword serving as a tag for searching for a user's desired image frame, and a start frame to which the same tag is assigned. Number, end frame number, position data (latitude, longitude) and the like are included. Here, the number of frames to which the same tag is assigned is uniquely 100 frames (= 1 block) so that it can be easily seen at the time of search display.

まず、車外カメラ11、車内カメラ12からの動画データが存在するか否かをチェックし(ステップS1)、存在しなければ終了する。ステップS1において動画データが存在する場合にはステップS2に進み、動画データ名を動画情報に記述する。次いでGPS部14からの位置データが存在するか否かをチェックし(ステップS3)、存在しなければステップS11に進み、動画情報を動画記録装置17に記録する。ステップS3において位置データが存在する場合にはステップS4に進み、その位置データを動画情報に記述する。次いでその位置データと地図データに基づいて現在位置近傍の1以上の地理的な名称を周辺キーワードとして抽出する(ステップS5)。   First, it is checked whether there is moving image data from the outside camera 11 and the inside camera 12 (step S1). If the moving image data exists in step S1, the process proceeds to step S2, and the moving image data name is described in the moving image information. Next, it is checked whether or not position data from the GPS unit 14 exists (step S3). If there is no position data, the process proceeds to step S11, and the moving image information is recorded in the moving image recording device 17. If position data exists in step S3, the process proceeds to step S4, and the position data is described in the moving image information. Next, one or more geographical names near the current position are extracted as peripheral keywords based on the position data and map data (step S5).

次いで音声認識装置15からの音声データが存在するか否かをチェックする(ステップS6)。音声データが存在しない場合にはステップS12に進み、位置データを取得した時点の動画フレーム番号を開始フレーム番号としてその100フレーム後を終了フレーム番号とし、また、ステップS5で位置データから抽出した1以上の周辺キーワードを動画情報のタグに記述し、次いでステップS11に進んで動画情報を動画記録装置17に記録する。   Next, it is checked whether or not there is voice data from the voice recognition device 15 (step S6). If there is no audio data, the process proceeds to step S12, where the moving image frame number at the time when the position data is acquired is set as the start frame number, and the frame after 100 frames is set as the end frame number, and one or more extracted from the position data in step S5 The peripheral keyword is described in the tag of the moving image information, and then the process proceeds to step S11 to record the moving image information in the moving image recording device 17.

ステップS6において音声データが存在する場合には、ステップS7に進んでその音声データから名詞を抽出し、次いでその抽出した名詞と、ステップS5で位置データから抽出した1以上の周辺キーワードをマッチングする(ステップS8)。もしマッチングしない場合には、ステップS9に分岐して位置データから抽出した1以上の周辺キーワードを動画情報のタグに記述し、他方、マッチングした場合にはステップS10に進んでマッチングした名詞を動画情報のタグに記述する。また、ステップS9、S10では、音声データを取得した時点の動画フレーム番号を開始フレーム番号としてその100フレーム後を終了フレーム番号とし、次いでステップS11に進んで動画情報を動画記録装置17に記録する。   If there is speech data in step S6, the process proceeds to step S7, where a noun is extracted from the speech data, and then the extracted noun is matched with one or more peripheral keywords extracted from the location data in step S5 ( Step S8). If not matched, one or more peripheral keywords extracted from the position data branching to step S9 are described in the video information tag. On the other hand, if matched, the process proceeds to step S10 and the matched noun is converted to the video information. Describe in the tag. In steps S9 and S10, the moving image frame number at the time when the audio data is acquired is set as the starting frame number, and the frame after 100 frames is set as the ending frame number. Then, the process proceeds to step S11 and moving image information is recorded in the moving image recording device 17.

図3は富士山の近傍を走行して撮影した動画データに対して付与した動画情報の例を示す。図3では、富士山の動画データの開始フレーム番号=1から終了フレーム番号=100までの1ブロックに対して、緯度データ(latitude)及び経度データ(Longitude)と、キーワード=御殿場を付与するとともに、開始フレーム番号=90から終了フレーム番号=189までの1ブロックに対して、緯度データ(latitude)及び経度データ(Longitude)と、キーワード=富士山を付与した例を示す。   FIG. 3 shows an example of moving image information given to moving image data shot in the vicinity of Mt. Fuji. In FIG. 3, latitude data (latitude) and longitude data (Longitude) and a keyword = Gotemba are assigned to one block from the start frame number = 1 to the end frame number = 100 of the video data of Mt. Fuji. An example is shown in which latitude data (latitude) and longitude data (Longitude) and keyword = Mt. Fuji are assigned to one block from frame number = 90 to end frame number = 189.

図4は音声データが存在しない富士山の動画データに対して付与した動画情報の例を示す。図4では、開始フレーム番号=1から終了フレーム番号=100までの1ブロックに対して、緯度及び経度データと、図3においてステップS5で位置データから抽出した周辺キーワード=御殿場、富士山、足柄を付与した例を示す。   FIG. 4 shows an example of moving image information given to moving image data of Mt. Fuji for which no audio data exists. In FIG. 4, latitude and longitude data and peripheral keywords extracted from position data in step S5 in FIG. 3 = Gotemba, Mt. Fuji, and Ashigara are assigned to one block from start frame number = 1 to end frame number = 100. An example is shown.

図5は動画データの途中(フレーム番号=90)から音声データ「今日の富士山、きれいだね」が存在する富士山の動画データに対して付与した動画情報の例を示す。図5では、開始フレーム番号=1から終了フレーム番号=100までの1ブロックに対して、緯度及び経度データと、ステップS5で位置データから抽出した周辺キーワード=御殿場を付与するとともに、開始フレーム番号=90から終了フレーム番号=189までの1ブロックに対して、緯度及び経度データと、音声認識により抽出した名詞「富士山」を付与した例を示す。   FIG. 5 shows an example of the moving image information given to the moving image data of Mt. Fuji in which the audio data “Today's Mt. Fuji, beautiful” exists from the middle of the moving image data (frame number = 90). In FIG. 5, latitude and longitude data and peripheral keywords extracted from the position data in step S5 = Gotemba are assigned to one block from start frame number = 1 to end frame number = 100, and start frame number = An example in which latitude and longitude data and the noun “Mt. Fuji” extracted by speech recognition are assigned to one block from 90 to end frame number = 189.

<本発明の適用例>
図6は、本発明に係るタグ情報付加装置10が適用されたシステムを示す。図6に示すシステムでは、本発明に係るタグ情報付加装置10は、車両Vに搭載されて動画データベース(DB)10aとして使用され、車両Vの走行中に撮影された周辺動画や車内動画を構成する複数フレームのうちの任意のフレームに対して、車両Vの走行中に録音された音声データと現在位置に基づいて検索用のタグを自動的に生成して付加し、タグ付き動画データとして記録する。タグ情報付加装置10(動画DB10a)に記録された動画データは、サーバ1にアップロードしてサーバ1からユーザYの携帯電話機2や、PC(パーソナルコンピュータ)3、車載情報端末4にダウンロードする。
<Application example of the present invention>
FIG. 6 shows a system to which the tag information adding apparatus 10 according to the present invention is applied. In the system shown in FIG. 6, the tag information adding device 10 according to the present invention is mounted on a vehicle V and used as a moving image database (DB) 10a, and constitutes a surrounding moving image and an in-vehicle moving image shot while the vehicle V is traveling. A search tag is automatically generated and added to any frame of a plurality of frames that are recorded while the vehicle V is traveling based on the current position and recorded as tagged moving image data. To do. The moving image data recorded in the tag information adding device 10 (moving image DB 10a) is uploaded to the server 1 and downloaded from the server 1 to the mobile phone 2 of the user Y, the PC (personal computer) 3, and the in-vehicle information terminal 4.

また、本発明の撮像手段はビデオカメラに限定されず、通常の携帯型のビデオカメラ、デジタルスチルカメラ、携帯電話機内蔵のカメラにも適用することができる。また、タグ付加対象の映像は、動画に限定されず、複数枚の静止画により構成される画像ファイルにも適用することができる。   The imaging means of the present invention is not limited to a video camera, but can be applied to a normal portable video camera, a digital still camera, and a camera with a built-in mobile phone. Also, the tag addition target video is not limited to a moving image, and can be applied to an image file composed of a plurality of still images.

本発明は、撮像手段により撮像されて生成される動画像ファイルや静止画ファイルを構成する複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加することができるという効果を有し、ビデオカメラ、スチルカメラ、携帯電話機などに利用することができる。   The present invention automatically generates tag information for searching for a user's desired image frame for a plurality of image frames constituting a moving image file or a still image file generated by being picked up by an image pickup means. And can be used for a video camera, a still camera, a mobile phone, and the like.

本発明に係るタグ情報付加装置の一実施の形態を示すブロック図である。It is a block diagram which shows one Embodiment of the tag information addition apparatus which concerns on this invention. 図1の動画処理装置の動作を説明するためのフローチャートである。3 is a flowchart for explaining the operation of the moving image processing apparatus of FIG. 1. 動画情報を示す説明図である。It is explanatory drawing which shows moving image information. 音声データがない場合の動画情報を示す説明図である。It is explanatory drawing which shows the moving image information when there is no audio | voice data. 音声データがある場合の動画情報を示す説明図である。It is explanatory drawing which shows the moving image information when there exists audio | voice data. 本発明に係るタグ情報付加装置を適用したシステムを示す説明図である。It is explanatory drawing which shows the system to which the tag information addition apparatus which concerns on this invention is applied.

符号の説明Explanation of symbols

11 車外カメラ
12 車内カメラ
13 車内マイク
14 GPS部
15 音声認識装置
16 動画処理装置
17 動画記録装置
DESCRIPTION OF SYMBOLS 11 Out-of-vehicle camera 12 In-vehicle camera 13 In-vehicle microphone 14 GPS part 15 Voice recognition device 16 Movie processing device 17 Movie recording device

Claims (7)

撮像手段により撮像されて生成された複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加するタグ情報付加装置であって、
前記撮像手段による撮像中に前記撮像手段の現在位置を検出する現在位置検出手段と、
前記現在位置検出手段により検出された現在位置に基づき、地理的な名称を有する地図データを用いて、現在位置近傍の地理的な名称を周辺キーワードとして抽出する周辺キーワード抽出手段と、
前記撮像手段による撮像中にユーザの音声を認識する音声認識手段と、
前記音声認識手段により音声が認識されない場合に、前記周辺キーワード抽出手段により抽出された周辺キーワードを、前記現在位置が検出された時点の画像フレームに対してタグ情報として付加する第1のタグ情報付加手段と、
前記音声認識手段により音声が認識された場合に、認識された音声から名詞を抽出して前記音声が認識された時点の画像フレームに対してタグ情報として付加する第2のタグ情報付加手段とを、
備えたタグ情報付加装置。
A tag information adding device that automatically generates and adds tag information for searching for a desired image frame of a user to a plurality of image frames that are captured and generated by an imaging unit,
A current position detecting means for detecting a current position of the imaging means during imaging by the imaging means;
Based on the current position detected by the current position detection means, using map data having a geographical name, a peripheral keyword extraction means for extracting a geographical name near the current position as a peripheral keyword;
Voice recognition means for recognizing a user's voice during imaging by the imaging means;
First tag information addition for adding the peripheral keyword extracted by the peripheral keyword extraction unit as tag information to the image frame at the time when the current position is detected when no voice is recognized by the voice recognition unit Means,
Second tag information adding means for extracting a noun from the recognized voice and adding it as tag information to the image frame at the time when the voice is recognized when the voice is recognized by the voice recognition means; ,
Provided tag information adding device.
前記第2のタグ情報付加手段は、前記抽出した名詞と、前記周辺キーワード抽出手段により抽出された周辺キーワードを比較し、一致した名詞を前記音声が認識された時点の画像フレームに対してタグ情報として付加することを特徴とする請求項1に記載のタグ情報付加装置。   The second tag information adding means compares the extracted noun with the peripheral keyword extracted by the peripheral keyword extracting means, and matches the noun with respect to the image frame at the time when the voice is recognized. The tag information adding device according to claim 1, wherein the tag information adding device is added. 前記第1、第2のタグ情報付加手段はそれぞれ、前記現在位置が検出された時点の画像フレーム、前記音声が認識された時点の画像フレームから所定数の画像フレームに対して同じタグ情報を付加することを特徴とする請求項1又は2に記載のタグ情報付加装置。   The first and second tag information adding means respectively add the same tag information to a predetermined number of image frames from the image frame at the time when the current position is detected and the image frame at the time when the sound is recognized. The tag information adding device according to claim 1, wherein the tag information adding device is a tag information adding device. 前記複数の画像フレームは、前記撮像手段として用いられるビデオカメラにより撮影された動画データであることを特徴とする請求項1から3までのいずれか1つに記載のタグ情報付加装置。   The tag information adding apparatus according to any one of claims 1 to 3, wherein the plurality of image frames are moving image data photographed by a video camera used as the imaging unit. 前記複数の画像フレームは、前記撮像手段として用いられるスチルカメラ又は携帯電話機に内蔵されたカメラにより撮影された静止画ファイルであることを特徴とする請求項1から3までのいずれか1つに記載のタグ情報付加装置。   The plurality of image frames are still image files photographed by a still camera used as the imaging unit or a camera built in a mobile phone. 4. Tag information adding device. 撮像手段により撮像されて生成された複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報を自動的に生成して付加するタグ情報付加方法であって、
前記撮像手段による撮像中に前記撮像手段の現在位置を検出する現在位置検出ステップと、
前記現在位置検出手段により検出された現在位置と地図データに基づいて、現在位置近傍の地理的な名称を周辺キーワードとして抽出する周辺キーワード抽出ステップと、
前記撮像手段による撮像中にユーザの音声を認識する音声認識ステップと、
前記音声認識手段により音声が認識されない場合に、前記周辺キーワード抽出手段により抽出された周辺キーワードを、前記現在位置が検出された時点の画像フレームに対してタグ情報として付加する第1のタグ情報付加ステップと、
前記音声認識手段により音声が認識された場合に、認識された音声から名詞を抽出して前記音声が認識された時点の画像フレームに対してタグ情報として付加する第2のタグ情報付加ステップとを、
備えたタグ情報付加方法。
A tag information adding method for automatically generating and adding tag information for searching for a user's desired image frame to a plurality of image frames captured and generated by an imaging means,
A current position detecting step for detecting a current position of the imaging means during imaging by the imaging means;
Based on the current position detected by the current position detection means and map data, a peripheral keyword extraction step for extracting a geographical name near the current position as a peripheral keyword;
A voice recognition step of recognizing a user's voice during imaging by the imaging means;
First tag information addition for adding the peripheral keyword extracted by the peripheral keyword extraction unit as tag information to the image frame at the time when the current position is detected when no voice is recognized by the voice recognition unit Steps,
A second tag information adding step for extracting a noun from the recognized voice and adding it as tag information to the image frame at the time when the voice is recognized when the voice is recognized by the voice recognition means; ,
Provided tag information addition method.
撮像手段により撮像されて生成された複数の画像フレームに対して、ユーザの所望の画像フレームを検索するためのタグ情報をコンピュータが自動的に生成して付加するためのコンピュータプログラムであって、
前記撮像手段による撮像中に前記撮像手段の現在位置を検出する現在位置検出ステップと、
前記現在位置検出手段により検出された現在位置と地図データに基づいて、現在位置近傍の地理的な名称を周辺キーワードとして抽出する周辺キーワード抽出ステップと、
前記撮像手段による撮像中にユーザの音声を認識する音声認識ステップと、
前記音声認識手段により音声が認識されない場合に、前記周辺キーワード抽出手段により抽出された周辺キーワードを、前記現在位置が検出された時点の画像フレームに対してタグ情報として付加する第1のタグ情報付加ステップと、
前記音声認識手段により音声が認識された場合に、認識された音声から名詞を抽出して前記音声が認識された時点の画像フレームに対してタグ情報として付加する第2のタグ情報付加ステップとを、
備えたコンピュータプログラム。
A computer program for automatically generating and adding tag information for searching for a user's desired image frame to a plurality of image frames captured and generated by an imaging means,
A current position detecting step for detecting a current position of the imaging means during imaging by the imaging means;
Based on the current position detected by the current position detection means and map data, a peripheral keyword extraction step for extracting a geographical name near the current position as a peripheral keyword;
A voice recognition step of recognizing a user's voice during imaging by the imaging means;
First tag information addition for adding the peripheral keyword extracted by the peripheral keyword extraction unit as tag information to the image frame at the time when the current position is detected when no voice is recognized by the voice recognition unit Steps,
A second tag information adding step for extracting a noun from the recognized voice and adding it as tag information to the image frame at the time when the voice is recognized when the voice is recognized by the voice recognition means; ,
Computer program provided.
JP2008178092A 2008-07-08 2008-07-08 Tag information adding device, tag information adding method, and computer program Expired - Fee Related JP4866396B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008178092A JP4866396B2 (en) 2008-07-08 2008-07-08 Tag information adding device, tag information adding method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008178092A JP4866396B2 (en) 2008-07-08 2008-07-08 Tag information adding device, tag information adding method, and computer program

Publications (2)

Publication Number Publication Date
JP2010021638A true JP2010021638A (en) 2010-01-28
JP4866396B2 JP4866396B2 (en) 2012-02-01

Family

ID=41706137

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008178092A Expired - Fee Related JP4866396B2 (en) 2008-07-08 2008-07-08 Tag information adding device, tag information adding method, and computer program

Country Status (1)

Country Link
JP (1) JP4866396B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9509906B2 (en) 2012-02-29 2016-11-29 JVC Kenwood Corporation Image processing apparatus, method for processing image, and computer program
US9697632B2 (en) 2014-02-04 2017-07-04 Sony Corporation Information processing apparatus, information processing method, and program
KR101867950B1 (en) * 2017-08-09 2018-06-20 주식회사 포렉스랩 Real Time Display System of Additional Information for Live Broadcasting and Image Service
KR20180133645A (en) * 2017-06-07 2018-12-17 현대자동차주식회사 Method and apparatus for searching geographic information using interactive speech recognition
CN109889916A (en) * 2019-01-07 2019-06-14 北京汉博信息技术有限公司 The application system of recorded broadcast data
CN111711869A (en) * 2020-06-24 2020-09-25 腾讯科技(深圳)有限公司 Label data processing method and device and computer readable storage medium
CN112102843A (en) * 2020-09-18 2020-12-18 北京搜狗科技发展有限公司 Voice recognition method and device and electronic equipment
CN113901255A (en) * 2020-07-06 2022-01-07 青岛海信移动通信技术股份有限公司 Image processing terminal and method

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104599692B (en) * 2014-12-16 2017-12-15 上海合合信息科技发展有限公司 The way of recording and device, recording substance searching method and device

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322435A (en) * 1999-05-13 2000-11-24 Nippon Telegr & Teleph Corp <Ntt> Cyber pictorial book supplementary data collection system and its input device
JP2003274320A (en) * 2002-03-15 2003-09-26 Konica Corp Imaging device and device and method for image information processing
JP2004153764A (en) * 2002-11-01 2004-05-27 Matsushita Electric Ind Co Ltd Metadata production device and retrieval device
JP2005114964A (en) * 2003-10-07 2005-04-28 Xanavi Informatics Corp Method and processor for speech recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322435A (en) * 1999-05-13 2000-11-24 Nippon Telegr & Teleph Corp <Ntt> Cyber pictorial book supplementary data collection system and its input device
JP2003274320A (en) * 2002-03-15 2003-09-26 Konica Corp Imaging device and device and method for image information processing
JP2004153764A (en) * 2002-11-01 2004-05-27 Matsushita Electric Ind Co Ltd Metadata production device and retrieval device
JP2005114964A (en) * 2003-10-07 2005-04-28 Xanavi Informatics Corp Method and processor for speech recognition

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9509906B2 (en) 2012-02-29 2016-11-29 JVC Kenwood Corporation Image processing apparatus, method for processing image, and computer program
US9697632B2 (en) 2014-02-04 2017-07-04 Sony Corporation Information processing apparatus, information processing method, and program
KR20180133645A (en) * 2017-06-07 2018-12-17 현대자동차주식회사 Method and apparatus for searching geographic information using interactive speech recognition
KR102401377B1 (en) 2017-06-07 2022-05-24 현대자동차주식회사 Method and apparatus for searching geographic information using interactive speech recognition
KR101867950B1 (en) * 2017-08-09 2018-06-20 주식회사 포렉스랩 Real Time Display System of Additional Information for Live Broadcasting and Image Service
CN109889916A (en) * 2019-01-07 2019-06-14 北京汉博信息技术有限公司 The application system of recorded broadcast data
CN109889916B (en) * 2019-01-07 2023-04-07 北京汉博信息技术有限公司 Application system of recorded broadcast data
CN111711869A (en) * 2020-06-24 2020-09-25 腾讯科技(深圳)有限公司 Label data processing method and device and computer readable storage medium
CN111711869B (en) * 2020-06-24 2022-05-17 腾讯科技(深圳)有限公司 Label data processing method and device and computer readable storage medium
CN113901255A (en) * 2020-07-06 2022-01-07 青岛海信移动通信技术股份有限公司 Image processing terminal and method
CN112102843A (en) * 2020-09-18 2020-12-18 北京搜狗科技发展有限公司 Voice recognition method and device and electronic equipment

Also Published As

Publication number Publication date
JP4866396B2 (en) 2012-02-01

Similar Documents

Publication Publication Date Title
JP4866396B2 (en) Tag information adding device, tag information adding method, and computer program
US20100114856A1 (en) Information search apparatus, information search method, and storage medium
JP5803723B2 (en) Structure inspection support method, structure inspection support program, and structure inspection support device
CN101086741A (en) Information processing apparatus and information processing method
KR20070082027A (en) Search device, search method, program
CN102547090A (en) Digital photographing apparatus and methods of providing pictures thereof
WO2008016083A1 (en) Overlay information presentation device and overlay information presentation system
WO2013024704A1 (en) Image-processing device, method, and program
JP2006513657A (en) Adding metadata to images
JP4352332B2 (en) Image scoring method and image scoring system
EP2503545A1 (en) Arrangement and method relating to audio recognition
US7512335B2 (en) Image capturing apparatus, an image capturing method, and a machine readable medium storing thereon a computer program for capturing images
CN101527772A (en) Digital camera and information recording method
KR100733095B1 (en) Information processing device and information processing method
JP5320913B2 (en) Imaging apparatus and keyword creation program
US20080291315A1 (en) Digital imaging system having gps function and method of storing information of imaging place thereof
JP4403364B2 (en) Information recording control device, information recording control method, recording medium, and program
KR101973865B1 (en) Electronic album management method and image device
JP2017059121A (en) Image management device, image management method and program
JP2017152842A (en) Image processing system, image processing method and program
JP2008242682A (en) Automatic meta information imparting system, automatic meta information imparting method, and automatic meta information imparting program
JP2010152608A (en) Device for input and conversion of character, and image capturing apparatus
JP6089515B2 (en) Image processing apparatus, image processing method, and program
JP5062054B2 (en) Image processing apparatus and image processing program
KR100723922B1 (en) Digital recording device having a GPS function and a method for setting the location information thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100531

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110915

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111021

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141118

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4866396

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141118

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees