JP2019149142A

JP2019149142A - 対象物標識のためのシステムおよび方法

Info

Publication number: JP2019149142A
Application number: JP2018153246A
Authority: JP
Inventors: 為博粘; Wei-Po Nien; 宗賢楊; Chung-Hsien Yang; 淳富莊; Chun-Fu Chuang
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2018-02-26
Filing date: 2018-08-16
Publication date: 2019-09-05
Anticipated expiration: 2038-08-16
Also published as: CN110197106A; US10685263B2; US20190266439A1; JP6686080B2; TWI666595B; TW201937405A

Abstract

【課題】対象物標識のためのシステム及び方法を提供する。
【解決手段】対象物標識システム１ａは、第１の対象物標識モジュール、第２の対象物標識モジュール、標識統合モジュール、およびフレーム間追跡モジュールを含む。第１の対象物標識モジュールは、２Ｄビデオのフレームの１つである第１の２Ｄ画像に従って第１の対象物標識結果を生成するように構成される。第２の対象物標識モジュールは、３Ｄ情報に従って第２の２Ｄ画像を生成し、３Ｄ情報および第２の２Ｄ画像に従って第２の対象物標識結果を生成するように構成される。標識統合モジュールは、第１の対象物標識結果および第２の対象物標識結果に従って第３の対象物標識結果を生成するように構成される。フレーム間追跡モジュールは、第３の対象物標識結果に従ってフレーム間対象物標識プロセスを実行して、第４の対象物標識結果を生成するように構成される。
【選択図】図１Ａ

Description

本開示は、対象物標識（object labeling）のためのシステムおよび方法に関する。

対象物検出の技術は、自走、衛星画像解析、車両リアルタイムモニタリングなど、多くの分野で広く応用されている。自動対象物検出システムを構築する過程において、標識の精度を向上させるために、自己学習のための対象物標識モデルのために多大な量のトレーニングデータが提供される必要がある。しかしながら、従来技術では、トレーニングデータの大部分は、手動標識、または半手動標識（すなわち、低レベルの人工知能によって標識されて、その後、手動で標識または調節される）に依存する。したがって、多大な量のトレーニングデータを提供するためには、多大な人的資源を消費する必要がある。

一方、トレーニングデータを提供するのにあまりにも多くの人的資源を費やさないと決定され、対象物標識に低レベルの人工知能のみが使用される場合、標識結果の正確さの要件を満たすことが困難な場合がある。

特許文献１では、ポータブルデバイス上の画像アノテーションが開示されている。特許文献１は、画像およびビデオの自動アノテーションのためのシステムを開示しており、モバイルデバイスは、対象物のアノテーション付きで場面の画像を表示するために、建造物または景観などの関心のある対象物に向けられる。アノテーションには、名称、歴史的情報、ならびに画像、ビデオ、およびオーディオファイルのデータベースへのリンクが含まれ得る。アノテーションの位置的な配置を決定するために様々な技法を使用することができ、複数の技法を使用することにより、より正確かつ信頼できる位置決めを行うことができる。アノテーション情報の詳細レベルは、使用される技術の精度に応じて調節することができる。アノテーションの精度と、通信コスト、遅延および／または電力消費との間のトレードオフを考慮に入れることができる。アノテーションデータベースは、自己組織化の方法で更新することができる。Ｗｅｂ上で公開されている公開情報は、アノテーションデータに変換することができる。

米国特許出願公開第２０１２／０３０００８９号明細書

本開示は、対象物を標識するためのシステムおよび方法を提供することを目的とする。

本開示の実施形態は、第１の対象物標識モジュール（object labeling module）、第２の対象物標識モジュール、標識統合モジュール（label integrating module）、およびフレーム間追跡モジュール（inter-frame tracking module）を含む対象物標識システム（object labeling system）を開示する。第１の対象物標識モジュールは、２Ｄビデオのフレームの１つである第１の２Ｄ画像に従って第１の対象物標識結果（object labeling result）を生成するように構成される。第２の対象物標識モジュールは、３Ｄ情報に従って第２の２Ｄ画像を生成し、３Ｄ情報および第２の２Ｄ画像に従って第２の対象物標識結果を生成するように構成される。標識統合モジュールは、第１の対象物標識結果および第２の対象物標識結果に従って第３の対象物標識結果を生成するように構成される。フレーム間追跡モジュールは、第３の対象物標識結果に従ってフレーム間対象物標識プロセス（inter-frame object labeling process）を実行して、第４の対象物標識結果を生成するように構成される。

本開示の実施形態は、対象物標識方法（object labeling method）を開示し、対象物標識方法が、第１の対象物標識モジュールにより、２Ｄビデオの画像フレームの１つである第１の２Ｄ画像に従って第１の対象物標識結果を生成することと；第２の対象物標識モジュールにより、３Ｄ情報に従って第２の２Ｄ画像を生成し、３Ｄ情報および第２の２Ｄ画像に従って第２の対象物標識結果を生成することと；標識統合モジュールにより、第１の対象物標識結果および第２の対象物標識結果に従って第３の対象物標識結果を生成することと；フレーム間追跡モジュールにより、第３の対象物標識結果に従ってフレーム間対象物標識プロセスを実行して、第４の対象物標識結果を取得することとを含む。

本発明の上記および他の態様は、好ましいが非限定的な（１つまたは複数の）実施形態の以下の詳細な説明に関して、よりよく理解される。以下の説明は、添付図面を参照してなされる。

本開示の一実施形態による対象物標識のためのシステムのブロック図である。本開示の別の実施形態による対象物標識のためのシステムのブロック図である。本開示の一実施形態による対象物標識のための方法のフローチャートである。本開示の別の実施形態による対象物標識のための方法のフローチャートである。対象物標識のための方法を実行する工程の概略図である。対象物標識のための方法を実行する工程の概略図である。対象物標識のための方法を実行する工程の概略図である。対象物標識のための方法を実行する工程の概略図である。フレーム間対象物標識プロセスを実行する工程の概略図である。フレーム間対象物標識プロセスを実行する工程の概略図である。フレーム間対象物標識プロセスを実行する工程の概略図である。フレーム間対象物標識プロセスを実行する工程の概略図である。

図１Ａを参照すると、図１Ａは、本開示の一実施形態による対象物標識（object labeling）のためのシステムのブロック図を示す。また、理解のために、図２Ａに示される対象物標識のための方法や、図３Ａ〜３Ｃに示される概略図も参照されたい。対象物標識システム（object labeling system）１ａは、画像またはビデオ内の対象物を検出し、認識し、標識（label）するように構成され得る。対象物は、画像またはビデオにおける歩行者、自動二輪車、車、またはそれらの組み合わせを含み得る。対象物標識システム１ａは、第１の対象物標識モジュール（object labeling module）１２と、第２の対象物標識モジュール１４と、標識統合モジュール（label integrating module）１６と、フレーム間追跡モジュール（inter-frame tracking module）１９とを含む。一実施形態では、対象物標識システム１ａは、トレーニングデータ生成モジュール（training data generating module）１８をさらに含んでいてもよい。別の実施形態では、トレーニングデータ生成モジュール１８は、対象物標識システム１ａに結合された外部装置（図示せず）内に構成される。すなわち、トレーニングデータ生成モジュール１８は、対象物標識システム１ａに選択的に含まれる。

第１の対象物標識モジュール１２は、第１の二次元（２Ｄ）画像２Ｄｉｍｇ１を受け取るように構成される。一実施形態では、第１の２Ｄ画像２Ｄｉｍｇ１は、２Ｄカメラによって取得されたリアルタイム画像である。別の実施形態では、第１の２Ｄ画像２Ｄｉｍｇ１は、コンピュータ可読記憶装置に格納された２Ｄ画像である。第１の２Ｄ画像２Ｄｉｍｇ１は、個々の２Ｄ画像、写真、または２Ｄビデオの画像フレームの１つであってもよい。本明細書で説明する「画像フレーム（image frame）」は、ビデオのフレームを指す。たとえば、フレームレートが２５ｆｐｓのビデオは、１秒あたり２５枚の画像フレームを有する。

第１の対象物標識モジュール１２は、第１の２Ｄ画像２Ｄｉｍｇ１に従って、第１の対象物標識結果（object labeling result）ＬＡＢＥＬ１を生成する（ステップＳ２０２）。一実施形態では、第１の対象物標識モジュール１２は、自己学習（self-learning）（たとえば、深層学習（deep learning））の機能を有する、１つまたは複数のコンピュータ可読媒体に格納されたアプリケーション、コンピュータ可読命令、プログラムまたはプロセスである。第１の対象物標識モジュール１２が１つまたは複数のプロセッサによって実行されるとき、第１の対象物標識結果ＬＡＢＥＬ１を生成するために、第１の２Ｄ画像２Ｄｉｍｇ１内の（１つまたは複数の）対象物を認識して、標識することが実行され得る（たとえば、１つまたは複数の対象物が、歩行者、自動二輪車、車などの対象物タイプ（object type）により、フレーム化され、標識され得る）。たとえば、（１つまたは複数の）対象物を標識するとき、第１の対象物標識モジュール１２は、最初に、１つまたは複数のフィルタを使用することによって、対象物認識に影響を及ぼすノイズまたは他の情報をフィルタリングしてもよい。次に、第１の対象物標識モジュール１２は、（１つまたは複数の）対象物である可能性のある（１つまたは複数の）輪郭（contour）を見つけ出し、その（１つまたは複数の）輪郭に従って、（１つまたは複数の）輪郭が（１つまたは複数の）対象物であるかどうかを判定する。輪郭が対象物として判定される場合、第１の対象物標識モジュール１２は、対象物の対象物タイプをさらに判定する。第１の対象物標識モジュール１２は、認識された全ての対象物を対象物フレーム（object frame）によってフレーム化し、対象物タイプをそれぞれ標識して、第１の対象物標識結果ＬＡＢＥＬ１を生成する。別の実施形態では、第１の対象物標識モジュール１２は、ＦａｓｔｅｒＲ−ＣＮＮ、ＳＳＤ、およびＹＯＬＯｖ２などの既存の対象物標識モジュールを使用することができる。

たとえば、図３Ａに示されるように、第１の対象物標識モジュール１２によって生成された第１の対象物標識結果ＬＡＢＥＬ１は、それぞれ車、車および歩行者の対象物タイプを有する対象物フレーム３０１、３０２、３０３によってフレーム化された対象物を含んでいる。

第２の対象物標識モジュール１４は、第１の対象物標識モジュール１２に結合され、三次元（３Ｄ）情報３Ｄｉｎｆｏを受け取るように構成される。一実施形態では、３Ｄ情報３Ｄｉｎｆｏは、３Ｄカメラまたは空間センサ（たとえば、ＬＩＤＡＲ）によって取得または感知されたリアルタイム３Ｄ画像またはリアルタイム情報である。別の実施形態では、３Ｄ情報は、コンピュータ可読記憶装置に格納された画像またはデータである。さらに別の実施形態では、３Ｄ情報３Ｄｉｎｆｏおよび第１の２Ｄ画像２Ｄｉｍｇ１は、多数の異種センサを含む１つまたは複数の装置によって、実質的に同じ角度および同じ時間に同じ領域を撮影または感知することによって取得される。異種とは、たとえば、２Ｄセンサおよび３Ｄセンサを意味し、２つのセンサが、２つのセンサによって感知され得る次元が異なり、基本的に異なることを意味する。３Ｄ情報３Ｄｉｎｆｏは、撮影もしくは感知領域におけるそれぞれのポイントの位置（たとえば、３Ｄ座標）、色情報（たとえば、ＲＧＢ値）、（１つもしくは複数の）対象物の奥行き、（１つもしくは複数の）対象物に光が照射されることによって生成される反射光の強度、またはこれらの組み合わせを表す点群（point cloud）を含み得る。

第２の対象物標識モジュール１４は、３Ｄ情報３Ｄｉｎｆｏに従って、第２の２Ｄ画像を生成し、３Ｄ情報３Ｄｉｎｆｏおよび第２の２Ｄ画像に従って、第２の対象物標識結果ＬＡＢＥＬ２を生成することができる（ステップＳ２０４）。一実施形態では、第２の対象物標識モジュール１４は、１つまたは複数のコンピュータ可読媒体に格納されたアプリケーション、コンピュータ可読命令、プログラムまたはプロセスである。第２の対象物標識モジュール１４が１つまたは複数のプロセッサによって実行されるとき、以下のステップ、すなわち、当業者に周知の変換ロジックまたは変換アルゴリズムを使用して３Ｄ情報を第２の２Ｄ画像に変換することと、３Ｄ情報３Ｄｉｎｆｏに基づいて１つまたは複数の対象物の位置、サイズ、輪郭などを導き出すことと、（１つまたは複数の）対象物フレームを用いることにより第２の２Ｄ画像内の導き出された（１つまたは複数の）対象物をフレーム化して、第２の対象物標識結果ＬＡＢＥＬ２を生成することとが実行され得る。

たとえば、図３Ｂに示されるように、第２の対象物標識モジュール１４によって生成された第２の対象物標識結果ＬＡＢＥＬ２は、それぞれ車、歩行者および歩行者の対象物タイプを有する対象物フレーム３０１、３０３、３０４によってフレーム化された対象物を含んでいる。なお、第２の２Ｄ画像は、３Ｄ情報３Ｄｉｎｆｏに基づいて生成されるため、第２の２Ｄ画像は、第１の２Ｄ画像２Ｄｉｍｇ１と異なり得る。図３Ａ〜３Ｃは、説明の目的のみのためであり、本開示を限定するものではない。

標識統合モジュール１６は、第１の対象物標識モジュール１２および第２の対象物標識モジュール１４に結合される。標識統合モジュール１６は、第１の対象物標識結果ＬＡＢＥＬ１および第２の対象物標識結果ＬＡＢＥＬ２に従って、第３の対象物標識結果ＬＡＢＥＬ３を生成することができる（ステップＳ２０６）。一実施形態では、標識統合モジュール１６は、１つまたは複数のコンピュータ可読媒体に格納されたアプリケーション、コンピュータ可読命令、プログラムまたはプロセスである。標識統合モジュール１６が１つまたは複数のプロセッサによって実行されるとき、以下のステップ、すなわち、第１の対象物標識結果ＬＡＢＥＬ１および第２の対象物標識結果ＬＡＢＥＬ２に従って第３の対象物標識結果ＬＡＢＥＬ３を生成することが実行され得る。一実施形態では、標識統合モジュール１６は、第１の対象物標識結果ＬＡＢＥＬ１と第２の対象物標識結果ＬＡＢＥＬ２との和集合（union）を第３の対象物標識結果ＬＡＢＥＬ３として導出する。すなわち、第３の対象物標識結果ＬＡＢＥＬ３で標識された（１つまたは複数の）対象物は、第１の対象物標識結果ＬＡＢＥＬ１で標識された（１つまたは複数の）対象物と、第２の対象物標識結果ＬＡＢＥＬ２で標識された（１つまたは複数の）対象物とを含んでいてもよい。たとえば、図３Ｃに示されるように、第３の対象物標識結果ＬＡＢＥＬ３は、それぞれ車、車、歩行者および歩行者の対象物タイプを有する対象物フレーム３０１、３０２、３０３、３０４によってフレーム化された対象物を含む。

フレーム間追跡モジュール１９は、標識統合モジュール１６に結合される。一実施形態では、フレーム間追跡モジュール１９は、１つまたは複数のコンピュータ可読媒体に格納されたアプリケーション、コンピュータ可読命令、プログラムまたはプロセスである。フレーム間追跡モジュール１９が１つまたは複数のプロセッサによって実行されるとき、以下のプロセス、すなわち、第３の対象物標識結果ＬＡＢＥＬ３に従ってフレーム間対象物標識プロセス（inter-frame object labeling process）を実行して、第４の対象物標識結果ＬＡＢＥＬ４を生成することを実行し得る（ステップＳ２０７）。

フレーム間対象物標識処理を明確に示すために、図２Ｂに示されるフレーム間対象物標識処理のフローチャート、および図４Ａ〜４Ｄに示されるフレーム間対象物標識処理の概略図を参照されたい。

フレーム間対象物標識処理は、ステップＳ２０７１およびＳ２０７３を含む。ステップＳ２０７１において、フレーム間追跡モジュール１９は、第３の対象物標識結果ＬＡＢＥＬ３内で少なくとも１つの第１の対象物フレーム（たとえば、図４Ａの６０１、６０５）を見つける。ステップＳ２０７３において、フレーム間追跡モジュール１９は、アルゴリズムに従って、以前の画像フレームまたは後続の画像フレーム内（または、第１の２Ｄ画像２Ｄｉｍｇ１の以前の画像フレームもしくは後続のフレームに従って生成された第３の対象物標識結果）の少なくとも１つの第１の対象物フレームのそれぞれに対応する位置で、第１の対象物フレームに対して特定のサイズを有する第２の対象物フレームを標識して、第４の対象物標識結果ＬＡＢＥＬ４を生成する（たとえば、図４Ｂ〜４Ｄの６０２、６０３、６０４）。

一実施形態では、図４Ａ〜４Ｄは、図４Ｄが最初にタイムライン上に現れ、図４Ｃ、図４Ｂおよび図４Ａがその後に続く、２Ｄビデオの４つの画像フレームであってもよい。場合によっては、図４Ｄの対象物である自動二輪車Ｏだけでなく、図４Ｃおよび図４Ｂの画像フレームの対象物も、第１の対象物標識モジュール１２および第２の対象物標識モジュール１４によって認識され、標識されるのに十分な大きさではないので、図４Ａの画像フレームになってやっと、対象物である自動二輪車Ｏが正常に標識される。つまり、フレーム間対象物追跡処理を実行する前には、対象物フレーム６０１以外に対象物フレーム６０２、６０３、６０４は存在しない。フレーム間対象物追跡処理を実行するとき、フレーム間追跡モジュール１９は、たとえばオプティカルフローアルゴリズム（optical flow algorithm）に従って、対象物である自動二輪車Ｏの速度および移動方向を導出でき、対象物である自動二輪車Ｏが近づいているという結果を得ることができる。次に、フレーム間追跡モジュール１９は、ビデオ内の以前の画像フレーム（すなわち図４Ｂ）内の対象物フレーム６０１に対応する位置を見つけ、対象物である自動二輪車Ｏの導出された速度に従って対象物フレーム６０２のサイズを導出し、対象物である自動二輪車Ｏに標識するために、以前の画像フレーム上の対象物フレーム６０２にマークを付ける。フレーム間追跡モジュール１９は、上述した動作を繰り返して、第４の対象物標識結果ＬＡＢＥＬ４として対象物フレーム６０３、６０４を標識する。一実施形態では、第４の対象物標識結果ＬＡＢＥＬ４は、トレーニングデータ生成モジュール１８に入力されてもよい。

別の実施形態では、図４Ａ〜４Ｄは、図４Ａが最初にタイムライン上に現れ、図４Ｂ、図４Ｃおよび図４Ｄがその後に続く、２Ｄビデオの４つの画像フレームであってもよい。この実施形態と前の実施形態との間の相違点は、フレーム間追跡モジュール１９が、対象物である自動二輪車Ｏを標識するために、ビデオ内の後続の画像フレーム内で、対象物フレーム６０１に対応する位置を見つけることができることである。

一実施形態では、対象物標識システム１ａは、第３の対象物標識結果ＬＡＢＥＬ３、第４の対象物標識結果ＬＡＢＥＬ４またはそれらの組み合わせを格納するように構成されたレジスタ（register）（図示せず）をさらに含んでいてもよい。フレーム間追跡モジュール１９によってフレーム間対象物標識処理が実行されるとき、以前の１つ（または複数）の画像フレームに従って生成された（１つまたは複数の）第３の対象物標識結果ＬＡＢＥＬ３がレジスタから抽出されてもよい。

一実施形態では、フレーム間追跡モジュール１９は、対象物フレーム６０２を、対象物フレーム６０１の特定の比率、たとえば０．５のサイズで標識することができるが、本開示はこれに限定されない。

また、図４Ａ〜４Ｄに示されるように、対象物フレーム６０５によって標識された対象物は静的な対象物であるので、対象物フレーム６０５は、常に図４Ａ〜４Ｄに存在し、サイズは変化しない。

トレーニングデータ生成モジュール１８は、フレーム間追跡モジュール１９に結合される。トレーニングデータ生成モジュール１８は、第４の対象物標識結果ＬＡＢＥＬ４に従って（または第３の対象物標識結果ＬＡＢＥＬ３および第４の対象物標識結果ＬＡＢＥＬ４に従って）トレーニングデータ（training data）Ｔｄａｔａを生成することができ、トレーニングデータＴｄａｔａを第１の対象物標識モジュール１２に提供することができる（ステップＳ２０８）。なお、ステップＳ２０８は、選択的に実行されてもよい。たとえば、トレーニングデータ生成モジュール１８が対象物標識システム１ａに含まれる場合に、ステップＳ２０８が実行されてもよく、トレーニングデータ生成モジュール１８が対象物標識システム１ａの外部に配置されている（すなわち、トレーニングデータ生成モジュール１８が対象物標識システム１ａに含まれていない）場合、ステップＳ２０８はこのプロセスに含まれなくてもよく、他のプロセスで実行されてもよい。一実施形態では、トレーニングデータ生成モジュール１８は、１つまたは複数のコンピュータ可読媒体に格納されたアプリケーション、コンピュータ可読命令、プログラムまたはプロセスである。トレーニングデータ生成モジュール１８が１つまたは複数のプロセッサによって実行されるとき、第４の対象物標識結果ＬＡＢＥＬ４に基づいてトレーニングデータＴｄａｔａを生成し、トレーニングデータＴｄａｔａを第１の対象物標識モジュール１２に提供することができる。

一実施形態では、トレーニングデータ生成モジュール１８は、第４の対象物標識結果ＬＡＢＥＬ４に従って（または第３の対象物標識結果ＬＡＢＥＬ３および第４の対象物標識結果ＬＡＢＥＬ４に従って）テキストファイル（たとえば、ｔｘｔファイル）を生成してもよい。テキストファイルの内容は、第４の対象物標識結果ＬＡＢＥＬ４で標識された（１つまたは複数の）対象物の対象物タイプ、位置およびサイズを記録する。すなわち、テキストファイルは、第４の対象物標識結果ＬＡＢＥＬ４で標識された（１つまたは複数の）対象物の記述であり、または、テキストファイルは、第４の対象物標識結果ＬＡＢＥＬ４で標識された（１つまたは複数の）対象物を記述するために使用される。トレーニングデータ生成モジュール１８は、第４の対象物標識結果ＬＡＢＥＬ４を、トレーニングデータＴｄａｔａとしてテキストファイルに関連付けることができ、トレーニングデータＴｄａｔａを第１の対象物標識モジュール１２に提供することができる。一実施形態では、トレーニングデータ生成モジュール１８によってトレーニングデータＴｄａｔａが生成された後、トレーニングデータ生成モジュール１８は、トレーニングデータＴｄａｔａをデータベースに格納することができる。第１の対象物標識モジュール１２は、標識の精度を向上させるために、データベースに格納されたデータを読み取ることによって自己学習を実行してもよい。

一実施形態では、トレーニングデータＴｄａｔａは、第１のグラウンドトゥルース（ground truth）として第１の対象物標識モジュール１２によって使用される。第１の対象物標識モジュール１２は、第１の対象物標識結果ＬＡＢＥＬ１とトレーニングデータＴｄａｔａ（すなわち、第１のグラウンドトゥルース）とを比較し、両者の差異または類似度（similarity）を計算することができる。たとえば、第１の対象物標識モジュール１２は、第１の信頼度（confidence）を得るために、第１の対象物標識結果ＬＡＢＥＬ１とトレーニングデータＴｄａｔａとの間の共通部分／和集合（ＩＯＵ）（intersection over union (IOU)）を計算する。ここで、ＩＯＵは、たとえば、両者で標識された対象物の共通部分の数を、両者で標識された対象物の和集合の数で割ることにより計算されてもよい。たとえば、図３Ａおよび３Ｃを参照すると、第４の対象物標識結果ＬＡＢＥＬ４と第３の対象物標識結果ＬＡＢＥＬ３とが同一であり、対応するテキストファイルがトレーニングデータとして使用されるとすると、第１の対象物標識結果ＬＡＢＥＬ１と第４の対象物標識結果ＬＡＢＥＬ４との間のＩＯＵは７５％である。第１の対象物標識結果ＬＡＢＥＬ１とトレーニングデータＴｄａｔａとの差が小さい（またはＩＯＵが大きい）ほど、第１の信頼度が高くなる。すなわち、第１の対象物標識モジュール１２が第１のグラウンドトゥルースに近づく。第１の対象物標識モジュール１２の精度が高くなると考えられる。逆に、第１の対象物標識結果ＬＡＢＥＬ１とトレーニングデータＴｄａｔａとの差が大きい（またはＩＯＵが小さい）ほど、第１の信頼度は低くなる。さらに、第１の対象物標識モジュール１２は、トレーニングデータＴｄａｔａに従って第１の対象物標識モジュール１２の１つまたは複数のパラメータを調節してもよい。複数の調節および修正の後、第１の対象物標識モジュール１２によって生成された第１の対象物標識結果ＬＡＢＥＬ１は、トレーニングデータＴｄａｔａにますます類似し得る、すなわち、精度がより高くなり得る。

一実施形態では、第２の対象物標識モジュール１４は、第２のグラウンドトゥルースおよび第２の対象物標識結果ＬＡＢＥＬ２に従って第２の信頼度を計算してもよい。第２のグラウンドトゥルースは、第２の２Ｄ画像内の対象物を標識するためのユーザの入力を受け取ることによって生成されてもよいし、（以前の第４の対象物標識結果ＬＡＢＥＬ４または以前のトレーニングデータＴｄａｔａに従って）ニューラルネットワークによる計算によって生成されてもよい。第２の対象物標識モジュール１４は、第２の信頼度を得るために、第２の対象物標識結果ＬＡＢＥＬ２と第２のグラウンドトゥルースとの間の差異または類似度（たとえば、ＩＯＵ）を計算する。第２の信頼度が高いほど、第２の対象物標識結果ＬＡＢＥＬ２が第２のグラウンドトゥルースに近づき、精度が高くなる。

一実施形態では、標識統合モジュール１６は、第１の信頼度および第２の信頼度に従って重み付け比（weight ratio）を決定してもよい。標識統合モジュール１６は、重み付け比に従って、使用される第１の対象物標識結果ＬＡＢＥＬ１と第２の対象物標識結果ＬＡＢＥＬ２との比を決定してもよい。たとえば、より低い明度の環境では、第１の対象物標識モジュール１２は、より低い第１の信頼度を有し、第２の対象物標識モジュール１４は、より高い第２の信頼度を有していてもよい。この場合、標識統合モジュール１６は、重み付け比が第２の対象物標識モジュール１４に偏っていると判定することができる。すなわち、標識統合モジュール１６は、第１の対象物標識結果ＬＡＢＥＬ１と第２の対象物標識結果ＬＡＢＥＬ２とを統合することにより、第２の対象物標識結果ＬＡＢＥＬ２で標識された対象物をより多く使用し、第１の対象物標識結果ＬＡＢＥＬ１で標識された対象物をより少なく使用する。

一実施形態では、トレーニングデータ生成モジュール１８は、第４の対象物標識結果ＬＡＢＥＬ４および第３のグラウンドトゥルースに従って、第３の信頼度を計算することができ、第３のグラウンドトゥルースは、たとえば以前の標識結果または以前のトレーニングデータに従って、ニューラルネットワークにより計算することができる。トレーニングデータ生成モジュール１８は、第３の信頼度に従って手動支援標識プロセス（manual assisted labeling process）を可能にするか否かを決定することができる。たとえば、第３の信頼度が閾値よりも低い場合、トレーニングデータ生成モジュール１８は、手動支援標識プロセスを可能にすることを決定してもよい。手動支援標識プロセスが可能である場合、トレーニングデータ生成モジュール１８は、たとえばユーザインターフェースを介して、ユーザからの（１つまたは複数の）入力を受け取り、第３の対象物標識結果ＬＡＢＥＬ３、トレーニングデータＴｄａｔａ、またはそれらの組み合わせを調節または修正し、たとえば、誤って標識された（１つまたは複数の）対象物を取り除き、標識された対象物の対象物タイプを変更し、標識されていない対象物を標識し、または、それらの組み合わせを行うことができる。一実施形態では、第１の対象物標識モジュール１２および第２の対象物標識モジュール１４が、１つまたは複数の対象物が対象であるかどうかを判定する際に相違がある場合、トレーニングデータ生成モジュール１８は、手動支援標識プロセスを可能にすることができる。たとえば、図３Ａにおいて、第１の対象物標識モジュール１２は、対象物フレーム３０２が車の対象物タイプで対象物を標識していると判定している。図３Ｂにおいて、第２の対象物標識モジュール１４は、対象物フレーム３０２に対応する位置が対象ではないと判定している。この場合、トレーニングデータ生成モジュール１８は、手動支援標識プロセスを可能にすることができる。たとえば、第１の対象物標識モジュール１２により標識された対象物および対象物標識３０２を表示するウィンドウが、対象物フレーム３０２が実際に対象物を標識するかどうかをユーザが選択するために、ユーザインターフェース上に突然現れる。

一実施形態では、第１の信頼度、第２の信頼度および第３の信頼度が低すぎる場合（たとえば、第１の信頼度、第２の信頼度および第３の信頼度が閾値より低い場合）、トレーニングデータ生成モジュール１８は、手動支援標識プロセスを可能にする。手動支援標識プロセスでは、対象物候補（object candidate）のそれぞれが実際に対象物であるかどうかをユーザが選択するために、１つまたは複数の対象物候補をユーザインターフェース上に表示することができる。そして、トレーニングデータ生成モジュール１８は、ユーザの（１つまたは複数の）選択に従ってトレーニングデータＴｄａｔａを生成することができる。

図１Ｂを参照すると、図１Ｂは、本開示の別の実施形態による対象物標識のためのシステムのブロック図を示す。理解するために、図３Ｄも参照されたい。対象物標識システム１ｂは、対象物標識システム１ａと類似している。対象物標識システム１ａと対象物標識システム１ｂとの違いは、トレーニングデータ生成モジュール１８である。

この実施形態では、トレーニングデータ生成モジュール１８は、対象物トリミングプロセス（object cropping process）１８２、手動支援標識プロセス（manual assisted labeling process）１８４、およびトレーニングデータ変換プロセス（training data transforming process）１８６を含み、手動支援標識プロセス１８４の可能化および詳細は上記の説明と同様である。

トレーニングデータ生成モジュール１８は、対象物トリミングプロセス１８２が実行されるとき、（図３Ｄに示されるように、第４の対象物標識結果ＬＡＢＥＬ４が第３の対象物標識結果ＬＡＢＥＬ３と同一であると仮定すると）第４の対象物標識結果ＬＡＢＥＬ４で標識された（１つまたは複数の）対象物をトリミングし、（１つまたは複数の）対象物タイプに従って、トリミングされた（１つまたは複数の）対象物を分類することができる。トレーニングデータ変換プロセスが実行されるとき、トレーニングデータ生成モジュール１８は、対象物フレーム３０１〜３０４によって標識された、トリミングされた対象物を解析のためにニューラルネットワークに送信して、同じ対象物タイプを有する対象物の共通の特性（characteristic）、輪郭（contour）、パラメータ（parameter）、またはその組み合わせを取得し、対象物標識システム１ａとは異なるトレーニングデータＴｄａｔａを生成する。第１の信頼度を計算するとき、第１の対象物標識モジュール１２は、トレーニングデータＴｄａｔａにおける各対象物タイプの対象物の特性、輪郭、パラメータ、またはそれらの組み合わせと、対象物を認識するために第１の対象物標識モジュール１２によって使用されたものとの間の差異を計算することができる。自己学習を実行する場合、第１の対象物標識モジュール１２は、トレーニングデータＴｄａｔａに従って各対象物タイプの対象物を認識するために使用される特性、輪郭、パラメータ、またはそれらの組み合わせを調節または修正することができる。

なお、一実施形態では、第１の対象物標識モジュール１２、第２の対象物標識モジュール１４、標識統合モジュール１６およびフレーム間追跡モジュール１９（ならびに選択的に含まれるトレーニングデータ生成モジュール１８）は、１つの装置（たとえば、監視センターのメインコンピュータまたは自走車のモバイルコンピュータ）に一体化されてもよく、外部に接続された２Ｄカメラおよび３Ｄカメラによって提供される第１の２Ｄ画像２Ｄｉｍｇ１および３Ｄ情報３Ｄｉｎｆｏを使用することにより本方法を実行してもよい。別の実施形態では、第１の対象物標識モジュール１２は、２Ｄカメラに一体化されてもよく、第２の対象物標識モジュール１４は、３Ｄカメラに一体化されてもよく、標識統合モジュール１６およびフレーム間追跡モジュール１９（ならびに選択的に含まれるトレーニングデータ生成モジュール１８）は、サーバ内に構成されてもよい。この場合、第１の対象物標識モジュール１２（すなわち、２Ｄカメラ）は、それ自身により取得した第１の２Ｄ画像２Ｄｉｍｇに従って、第１の対象物標識結果ＬＡＢＥＬ１を生成し、第１の対象物標識結果ＬＡＢＥＬ１をサーバに転送する。第２の対象物標識モジュール１４（すなわち、３Ｄカメラ）は、それ自身により取得した３Ｄ情報３Ｄｉｎｆｏに従って、第２の対象物標識結果ＬＡＢＥＬ２を生成し、第２の対象物標識結果ＬＡＢＥＬ２をサーバに転送する。サーバにおいて、標識統合モジュール１６は、第１の対象物標識結果ＬＡＢＥＬ１と第２の対象物標識結果ＬＡＢＥＬ２とを第３の対象物標識結果ＬＡＢＥＬ３に統合し、フレーム間追跡モジュール１９は、第３の対象物標識結果ＬＡＢＥＬ３に従って第４の対象物標識結果ＬＡＢＥＬ４を生成し、トレーニングデータ生成モジュール１８は、第４の対象物標識結果ＬＡＢＥＬ４に従って（または第３の対象物標識結果ＬＡＢＥＬ３および第４の対象物標識結果ＬＡＢＥＬ４の両方に従って）トレーニングデータＴｄａｔａを生成する。換言すれば、上述したモジュールは、ソフトウェアだけでなく、ハードウェアまたはファームウェアによって実装されてもよい。

上記の実施形態によれば、対象物標識システムおよび対象物標識方法は、第１の対象物標識モジュール１２および第２の対象物標識モジュール１４の入力として、異なる次元を有する第１の２Ｄ画像２Ｄｉｍｇ１および３Ｄ情報３Ｄｉｎｆｏをそれぞれ使用して、第１の対象物標識結果ＬＡＢＥＬ１および第２の対象物標識結果を取得することができ、第１の対象物標識結果ＬＡＢＥＬ１および第２の対象物標識結果ＬＡＢＥＬ２とを統合して、第３の対象物標識結果ＬＡＢＥＬ３を取得する。フレーム間追跡モジュール１９は、第３の対象物標識結果ＬＡＢＥＬ３に従って第４の対象物標識結果ＬＡＢＥＬ４を生成し、トレーニングデータ生成モジュール１８は、第４の対象物標識結果ＬＡＢＥＬ４に基づいてトレーニングデータＴｄａｔａを生成して、学習のために第１の対象物標識モジュール１２に提供する。第１の２Ｄ画像２Ｄｉｍｇ１および３Ｄ情報３Ｄｉｎｆｏは異なる情報を提供することができるので、第１の対象物標識モジュール１２および第２の対象物標識モジュール１４はそれぞれ、認識に優れた、または認識に優れていない環境または対象物を有する。両者によって提供される対象物標識結果を組み合わせることによって、互いに補完する効果を達成することができる。標識の自動化の程度を高め、手動標識の割合を減らすことができるだけでなく、対象物標識の精度を高めることができる。さらに、ビデオ内の動的対象物は、フレーム間追跡モジュール１９およびフレーム間対象物標識プロセスによって追跡され、標識される。フレーム間追跡モジュール１９およびフレーム間対象物標識プロセスを使用することにより、第１の対象物標識モジュール１２および第２の対象物標識モジュール１４によって標識されていない対象物を追跡および標識することができるので、対象物標識の精度がさらに改善され、手動支援標識の必要性がさらに低減され得る。

本発明は、例として、および好ましい（１つまたは複数の）実施形態の観点から記載されているが、本発明はそれに限定されないことが理解さるべきである。それどころか、様々な修正ならびに同様の配置および手順を網羅することを意図しており、したがって、添付の特許請求の範囲は、そのような修正ならびに同様の配置および手順をすべて網羅するように最も広い解釈を与えられるべきである。

１ａ、１ｂ対象物標識システム
１２第１の対象物標識モジュール
１４第２の対象物標識モジュール
１６標識統合モジュール
１８トレーニングデータ生成モジュール
１８２対象物トリミングプロセス
１８４手動支援標識プロセス
１８６トレーニングデータ変換プロセス
１９フレーム間追跡モジュール
３０１、３０２、３０３、３０４対象物フレーム
６０１、６０２、６０３、６０４、６０５対象物フレーム
２Ｄｉｍｇ１第１の２Ｄ画像
３Ｄｉｎｆｏ３Ｄ情報
ＬＡＢＥＬ１第１の対象物標識結果
ＬＡＢＥＬ２第２の対象物標識結果
ＬＡＢＥＬ３第３の対象物標識結果
ＬＡＢＥＬ４第４の対象物標識結果
Ｏ自動二輪車
Ｔｄａｔａトレーニングデータ

Claims

２Ｄビデオの画像フレームの１つである第１の２Ｄ画像に従って第１の対象物標識結果を生成するように構成される第１の対象物標識モジュールと、
３Ｄ情報に従って第２の２Ｄ画像を生成するように構成され、前記３Ｄ情報および前記第２の２Ｄ画像に従って第２の対象物標識結果を生成するように構成される第２の対象物標識モジュールと、
前記第１の対象物標識結果および前記第２の対象物標識結果に従って第３の対象物標識結果を生成するように構成される標識統合モジュールと、
前記第３の対象物標識結果に従ってフレーム間対象物標識プロセスを実行し、第４の対象物標識結果を取得するように構成されるフレーム間追跡モジュールと
を備える対象物標識システム。
前記第３の対象物標識結果および前記第４の対象物標識結果に従ってトレーニングデータを生成するように構成され、前記トレーニングデータを前記第１の対象物標識モジュールに転送するように構成されるトレーニングデータ生成モジュールをさらに備える請求項１記載の対象物標識システム。
前記フレーム間対象物標識プロセスが、
前記第３の対象物標識結果において少なくとも１つの第１の対象物フレームを見つけることと、
アルゴリズムに従って前記２Ｄビデオの以前の画像フレームまたは後続の画像フレームの前記少なくとも１つの第１の対象物フレームのそれぞれに対応する位置において前記第１の対象物フレームの特定の比率のサイズを有する第２の対象物フレームを標識することと
を含む、請求項１記載の対象物標識システム。
前記第１の対象物標識モジュールがさらに、前記第１の対象物標識結果および第１のグラウンドトゥルースに従って第１の信頼度を算出し、前記第２の対象物標識モジュールがさらに、前記第２の対象物標識結果および第２のグラウンドトゥルースに従って第２の信頼度を算出し、前記標識統合モジュールが、前記第１の信頼度および前記第２の信頼度に従って重み付け比を決定し、前記重み付け比にさらに従って前記第３の対象物標識結果を生成する、請求項１記載の対象物標識システム。
前記第３の対象物標識結果が、前記第１の対象物標識結果および前記第２の対象物標識結果の和集合である、請求項１記載の対象物標識システム。
前記トレーニングデータ生成モジュールが、前記第４の対象物標識結果および第３の信頼度に従って手動支援標識プロセスを可能にするか否かを決定する、請求項２記載の対象物標識システム。
前記トレーニングデータ生成モジュールが、前記第４の対象物標識結果を記述するためのテキストファイルを生成し、前記第４の対象物標識結果と前記テキストファイルとを前記トレーニングデータとして接続する、または、
前記トレーニングデータ生成モジュールが、１つまたは複数の対象物フレームにより標識された１つまたは複数の対象物を前記トレーニングデータとして切り取り、分類する、請求項２記載の対象物標識システム。
第１の対象物標識モジュールにより、２Ｄビデオの画像フレームの１つである第１の２Ｄ画像に従って第１の対象物標識結果を生成することと、
第２の対象物標識モジュールにより、３Ｄ情報に従って第２の２Ｄ画像を生成し、前記３Ｄ情報および前記第２の２Ｄ画像に従って第２の対象物標識結果を生成することと、
標識統合モジュールにより、前記第１の対象物標識結果および前記第２の対象物標識結果に従って第３の対象物標識結果を生成することと、
フレーム間追跡モジュールにより、前記第３の対象物標識結果に従ってフレーム間対象物標識プロセスを実行し、第４の対象物標識結果を取得することと
を含む対象物標識方法。
トレーニングデータ生成モジュールにより、前記第３の対象物標識結果および前記第４の対象物標識結果に従ってトレーニングデータを生成することと、
前記トレーニングデータ生成モジュールにより、前記トレーニングデータを前記第１の対象物標識モジュールに転送することと
をさらに含む請求項８記載の対象物標識方法。
前記フレーム間対象物標識プロセスが、
前記第３の対象物標識結果において少なくとも１つの第１の対象物フレームを見つけることと、
アルゴリズムに従って前記２Ｄビデオの以前の画像フレームまたは後続の画像フレームの前記少なくとも１つの第１の対象物フレームのそれぞれに対応する位置において前記第１の対象物フレームの特定の比率のサイズを有する第２の対象物フレームを標識することと
を含む、請求項８記載の対象物標識方法。
前記第１の対象物標識モジュールがさらに、前記第１の対象物標識結果および第１のグラウンドトゥルースに従って第１の信頼度を算出し、前記第２の対象物標識モジュールがさらに、前記第２の対象物標識結果および第２のグラウンドトゥルースに従って第２の信頼度を算出し、前記標識統合モジュールが、前記第１の信頼度および前記第２の信頼度に従って重み付け比を決定し、前記重み付け比にさらに従って前記第３の対象物標識結果を生成する、請求項８記載の対象物標識方法。
前記第３の対象物標識結果が、前記第１の対象物標識結果および前記第２の対象物標識結果の和集合である、請求項８記載の対象物標識方法。
前記トレーニングデータ生成モジュールが、前記第４の対象物標識結果および第３の信頼度に従って手動支援標識プロセスを可能にするか否かを決定する、請求項９記載の対象物標識方法。
前記トレーニングデータ生成モジュールが、前記第４の対象物標識結果を記述するためのテキストファイルを生成し、前記第４の対象物標識結果と前記テキストファイルとを前記トレーニングデータとして接続する、または、
前記トレーニングデータ生成モジュールが、１つまたは複数の対象物フレームにより標識された１つまたは複数の対象物を前記トレーニングデータとして切り取り、分類する、請求項９記載の対象物標識方法。