JP2018092494A

JP2018092494A - 画像センサ

Info

Publication number: JP2018092494A
Application number: JP2016237175A
Authority: JP
Inventors: 久美子馬原; Kumiko Umahara; 佐伯　隆司; Takashi Saeki; 隆司佐伯
Original assignee: Sony Semiconductor Solutions Corp
Current assignee: Sony Semiconductor Solutions Corp
Priority date: 2016-12-07
Filing date: 2016-12-07
Publication date: 2018-06-14
Also published as: WO2018105246A1

Abstract

【課題】画像データを利用した認識処理を高速化する。
【解決手段】撮像素子は、対象物を撮像して時系列に並ぶ画像データのフレームを生成する。二値化処理部は、フレームの各々に対して二値化処理を行って二値化フレームを生成する。トラッキング処理部は、時系列に隣接する二値化フレームの間の差分を生成して二値化フレームに含まれる対象物の位置の変化を追跡する。モーメント生成部は、トラッキング処理部による結果に基づいて二値化フレームに含まれる対象物のモーメントを算出する。条件設定部は、画像データから所定の事象を検知するための条件を設定する。検知部は対象物のモーメントと条件設定部に設定された条件とを比較して所定の事象を検知する。制御信号供給部は、検知の結果に応じて出力装置に制御信号を供給する。
【選択図】図１

Description

本技術は、画像センサに関する。詳しくは、撮像された画像データを利用して事象を検知するための画像センサに関する。

従来、イメージセンサを用いて撮像された画像データを利用して様々な認識処理が行われている。そのような認識処理を行うシステムにおけるデータフローは、画像データを表示画像として出力するデータフローと、画像データから必要な情報を抽出して認識処理を行うデータフローとに大別される。認識処理を行うデータフローを高速化するために、例えば、イメージセンサの画素毎にプロセッシングエレメントを設けた画像検出処理装置が提案されている（例えば、特許文献１参照。）。

特開２００１−１９５５６４号公報

上述の従来技術では、画像データを転送するとともに、モーメント等の算出に必要な処理データを外部のプロセッサに出力している。しかしながら、その場合、重心位置等を算出するために、外部のプロセッサにおいてさらに処理が必要になる。画像を表示するためには、一般に３０乃至１２０ｆｐｓ（フレーム／秒）程度の処理速度で足りるが、高度な認識処理を行うためにはそれでは不十分である。

本技術はこのような状況に鑑みて生み出されたものであり、画像データを利用した認識処理を高速化することを目的とする。

本技術は、上述の問題点を解消するためになされたものであり、その第１の側面は、対象物を撮像して時系列に並ぶ画像データのフレームを生成する撮像素子と、上記フレームの各々に対して二値化処理を行って二値化フレームを生成する二値化処理部と、時系列に隣接する上記二値化フレームの間の差分を生成して上記二値化フレームに含まれる上記対象物の位置の変化を追跡するトラッキング処理部と、上記トラッキング処理部による結果に基づいて上記二値化フレームに含まれる上記対象物のモーメントを算出するモーメント生成部と、上記画像データから所定の事象を検知するための条件を設定する条件設定部と、上記対象物のモーメントと上記条件設定部に設定された上記条件とを比較して上記所定の事象を検知する検知部と、上記検知の結果に応じて出力装置に制御信号を供給する制御信号供給部とを具備する画像センサである。これにより、画像センサ内の条件設定部に設定された条件に従って検知された結果に応じて出力装置に制御信号を供給するという作用をもたらす。

また、この第１の側面において、上記フレームの各々に対してフィルタ処理を施すフィルタ処理部をさらに具備し、上記二値化処理部は、上記フィルタ処理の施されたフレームの各々に対して上記二値化処理を行うようにしてもよい。これにより、フレームの各々に対してフィルタ処理を施すという作用をもたらす。

また、この第１の側面において、上記モーメント生成部によって生成された上記モーメントに基づいて上記二値化フレームに含まれる上記対象物の重心位置を生成する重心位置生成部をさらに具備してもよい。これにより、二値化フレームに含まれる対象物の重心位置を生成するという作用をもたらす。

また、この第１の側面において、上記検知部は、上記対象物の移動量および形状に基づいて上記所定の事象として危険行為を検知し、上記制御信号供給部は、上記危険行為を検知すると上記出力装置に警告を出力させる上記制御信号を供給するようにしてもよい。これにより、危険行為を検知して出力装置に警告を出力させるという作用をもたらす。

また、この第１の側面において、上記検知部は、上記対象物の動きおよび形状に基づいて上記所定の事象として手話のパターンを検知して手話解析を行い、上記制御信号供給部は、上記手話解析に基づいて上記出力装置にテキスト情報を出力させる上記制御信号を供給するようにしてもよい。これにより、手話解析を行って、それに基づいて出力装置にテキスト情報を出力させるという作用をもたらす。

また、この第１の側面において、上記検知部は、上記対象物における唇の動きおよび形状に基づいて上記所定の事象として発話内容のパターンを検知して読唇を行い、上記制御信号供給部は、上記読唇の結果に基づいて上記出力装置にテキスト情報を出力させる上記制御信号を供給するようにしてもよい。これにより、読唇を行って、それに基づいて出力装置にテキスト情報を出力させるという作用をもたらす。

また、この第１の側面において、上記検知部は、上記対象物における唇の動きおよび形状に基づいて上記所定の事象として発話内容のパターンを検知して読唇を行い、上記制御信号供給部は、上記読唇の結果に基づいて上記出力装置に手話情報を出力させる上記制御信号を供給するようにしてもよい。これにより、読唇を行って、それに基づいて出力装置に手話情報を出力させるという作用をもたらす。

また、この第１の側面において、上記条件設定部は、複数の上記条件を設定し、上記検知部は、上記複数の条件について独立に上記検知を行うようにしてもよい。これにより、条件設定部に設定された複数の条件について独立に検知を行うという作用をもたらす。

本技術によれば、画像データを利用した認識処理を高速化することができるという優れた効果を奏し得る。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術の実施の形態における検知システムの全体構成例を示す図である。本技術の実施の形態における画像センサ１００の一構成例を示す図である。本技術の実施の形態における検知フェーズ１０１の動作の一例を示す図である。本技術の実施の形態の第１の適用例における危険行為検知の例を示す図である。本技術の実施の形態の第１の適用例における危険行為検知の処理手順例を示す流れ図である。本技術の実施の形態の第２の適用例における聴覚障害の補助の例を示す図である。本技術の実施の形態の第２の適用例における手話解析の処理手順例を示す流れ図である。本技術の実施の形態の第２の適用例におけるリップリーディングの処理手順例を示す流れ図である。本技術の実施の形態の第３の適用例における複数条件による検知の例を示す図である。本技術の実施の形態の第３の適用例における複数の条件とフレームとの関係例を示す図である。

以下、本技術を実施するための形態（以下、実施の形態と称する）について説明する。説明は以下の順序により行う。
１．実施の形態（検知システムの構成例）
２．第１の適用例（危険行為検知の例）
３．第２の適用例（聴覚障害の補助の例）
４．第３の適用例（複数条件による検知の例）

＜１．実施の形態＞
［検知システム］
図１は、本技術の実施の形態における検知システムの全体構成例を示す図である。この検知システムは、カメラ４１０と、制御部４２０と、行動学習装置４３０と、条件保持部４４０と、画像センサ１００と、操作入力装置３１０と、出力装置３２０とを備えている。ここで、カメラ４１０、制御部４２０、および、行動学習装置４３０は、学習フェーズ４０１を構成する。また、画像センサ１００、操作入力装置３１０、および、出力装置３２０は、検知フェーズ１０１を構成する。学習フェーズ４０１による学習結果は、条件保持部４４０に保持され、検知フェーズ１０１における検知の際に参照される。

カメラ４１０は、学習フェーズ４０１において学習対象となる画像を撮像するために利用される撮像装置である。このカメラ４１０は、撮像部４１１を備える。撮像部４１１は、対象物を含む被写体を撮像する撮像素子である。対象物は、人物や動物などの生物のみならず、非生物を広く含むオブジェクトである。このカメラ４１０によって撮像された画像データは制御部４２０に出力される。なお、この例では、画像センサ１００とは別個のカメラを設けることを想定したが、画像センサ１００をカメラ４１０として使用して学習フェーズ４０１における学習を行うようにしてもよい。

制御部４２０は、カメラ４１０の動作を制御して、撮像された画像データを行動学習装置４３０に供給するものである。

行動学習装置４３０は、カメラ４１０によって撮像された画像データに基づいて、行動学習を行うものである。この行動学習装置４３０では、ディープラーニング（Deep Learning：深層学習）によって、識別器だけでなく特徴量抽出も同時に学習することができる。また、ブースティング（Boosting）などの既存の認識器よりもよい性能を出す学習が、大量のデータセットを用意するだけで可能である。この行動学習装置４３０によって、フィルタ係数、検知条件、ターゲット判定条件などが、学習結果として得られる。

条件保持部４４０は、行動学習装置４３０における行動学習により得られた各種の条件を学習結果として保持するものである。この条件保持部４４０に保持された条件は、検知フェーズ１０１において所定の事象を検知するための条件として参照される。

画像センサ１００は、対象物を含む被写体を撮像して、条件保持部４４０に保持された条件に従って、所定の事象を検知するものである。操作入力装置３１０は、外部からの操作入力を受け付けるものである。出力装置３２０は、画像センサ１００によって得られた情報を出力するものである。

図２は、本技術の実施の形態における画像センサ１００の一構成例を示す図である。画像センサ１００は、条件設定部１０４と、撮像部１１０と、フィルタ処理部１２０と、二値化処理部１３０と、トラッキング処理部１４０と、モーメント生成部１５０と、重心位置生成部１６０とを備える。また、この画像センサ１００は、集計処理部２１０と、制御部２２０と、インターフェース２３０とを備える。

撮像部１１０は、対象物を含む被写体を撮像する撮像素子である。この撮像部１１０は、所定のフレームレートにより、時系列に並ぶ画像データのフレームを生成する。ここで、フレームレートとしては、１秒当たり１０００フレーム（１０００ｆｐｓ）以上の高フレームレートを想定する。この撮像部１１０によって撮像された画像データのフレームは、その全てが画像センサ１００の外部に供給される必要はない。高フレームレートの画像データは以下に説明する検知を目的としたものであり、表示のためにはこれよりも低いフレームレートで十分である。すなわち、高フレームレートの画像データを画像センサ１００内の参照に留めることにより、画像センサ１００のバンド幅を有効に活用することが可能となる。なお、撮像部１１０は、特許請求の範囲に記載の撮像素子の一例である。

フィルタ処理部１２０は、撮像部１１０によって撮像された画像データのフレームの各々に対してフィルタ処理を施すものである。このフィルタ処理部１２０におけるフィルタ処理としては、例えば、移動平均フィルタやメディアンフィルタなどによるノイズ除去処理、Ｓｏｂｅｌフィルタなどによる輪郭検出処理、ラプラシアンフィルタなどによるエッジ検出などが想定される。また、このフィルタ処理部１２０によって画像のオイラー数を求めることにより、画像に含まれる対象物の個数を算出することも可能である。オイラー数とは、成分数から孔の数を引いた数である。また、このフィルタ処理部１２０によって、画像データの他の特徴量を抽出することができる。

二値化処理部１３０は、フィルタ処理部１２０によってフィルタ処理の施されたフレームの各々に対して二値化処理を行うものである。この二値化処理部１３０は、各フレームの画像データに含まれる輝度や色のヒストグラム情報に基づいてその画像データを二値化して、二値化データからなる二値化フレームを生成する。

トラッキング処理部１４０は、二値化処理部１３０によって生成された二値化フレームについて、時系列に隣接するフレーム間の差分を生成することにより、二値化フレームに含まれる対象物を検出して、その対象物の位置の変化を追跡するものである。対象物の検出の際には、画像における特定の領域を測定対象として指定することが可能である。

モーメント生成部１５０は、トラッキング処理部１４０による結果に基づいて、二値化フレームにおける２変数関数のモーメントを算出するものである。０次モーメントは、その二値化フレームに含まれる対象物の面積の変化量を表し、画像の回転や拡大縮小に対して不変な値である。

重心位置生成部１６０は、モーメント生成部１５０によって生成されたモーメントに基づいて、二値化フレームに含まれる対象物の重心位置を生成するものである。水平方向および垂直方向の各１次モーメントをそれぞれ０次モーメントで除算した値が、重心位置を表す。

集計処理部２１０は、画像センサ１００によって得られた各種データに基づいて集計処理を行って、所定の事象を検知するものである。この集計処理部２１０は、以下の適用例に示すように、動作するアプリケーションに応じて必要な処理を行う。制御部２２０は、画像センサ１００の各部に対する動作制御を行うものである。インターフェース２３０は、外部とのインターフェースを司るものである。この例では、インターフェース２３０は出力装置３２０と接続して、画像センサ１００によって得られた情報を出力装置３２０に表示させる。なお、集計処理部２１０は、特許請求の範囲に記載の検知部の一例である。また、インターフェース２３０は、特許請求の範囲に記載の制御信号供給部の一例である。

なお、この図においては、重心位置生成部１６０からの出力が集計処理部２１０および制御部２２０に供給される経路を明示しているが、画像センサ１００の各部から集計処理部２１０に対して各種データを供給する経路が必要に応じて設けられてもよい。

条件設定部１０４は、検知フェーズ１０１において画像データから所定の事象を検知するための条件を設定するものである。この条件設定部１０４には、学習フェーズ４０１による行動学習の結果として、行動ごとの設定値が設定される。この条件設定部１０４に設定される条件としては、例えば、フィルタ係数、検知条件、ターゲット判定条件などが想定される。

フィルタ係数は、撮像部１１０によって撮像された画像データをどのように処理するか、その画像データから欲しい情報を抽出し易くするためのフィルタの係数である。このフィルタ係数は、主としてフィルタ処理部１２０によって用いられるが、二値化処理部１３０などにおいても利用される。

検知条件は、検知フェーズ１０１において検知したい条件である。例えば、後述する危険行為や、手話パターンなどの事象がこれに該当する。

ターゲット判定条件は、検知フェーズ１０１において検知したい条件の対象になるものである。例えば、検知条件が危険行為であれば、その行為を行う人物や動物がこれに該当する。また、検知条件が手話パターンであれば、手話に用いられる腕や口がこれに該当する。

図３は、本技術の実施の形態における検知フェーズ１０１の動作の一例を示す図である。

条件設定部１０４には、検知フェーズ１０１において画像データから所定の事象を検知するための条件が設定されている。また、画像データは、フィルタ処理部１２０によるフィルタ演算および二値化処理部１３０における二値化処理によって、ターゲットの形状を認識し易いように変換される。例えば、特徴点抽出が行われ、また、データ量の軽減がなされる。

集計処理部２１０は、変換された画像データに基づいて対象物の位置をターゲットとして決定して、トラッキング処理部１４０にそのターゲットを指定する。トラッキング処理部１４０は、指定されたターゲットを捕捉して、ターゲットの位置情報を更新して追跡を継続する。集計処理部２１０は、ターゲットの移動量および形状を監視して、その形状が条件設定部１０４の設定値に合致するか否かを確認する。条件設定部１０４の設定値に合致したことを集計処理部２１０が検知すると、制御部２２０を介して出力装置３２０に制御信号が供給される。

このように構成することにより、画像センサ１００内の条件設定部１０４に設定された条件に従って、対象物の形状変化から行動認識をリアルタイムに行い、その検知結果を出力するよう制御することができる。

＜２．第１の適用例＞
図４は、本技術の実施の形態の第１の適用例における危険行為検知の例を示す図である。本実施の形態における検知システムを用いて危険行為検知を行うためには、画像センサ１００によって対象物を撮像し、条件設定部１０４に設定された条件に合致するか否かを集計処理部２１０によって検知する。これにより、危険行為を予測し、警告を行うことにより、その危険行為を未然に抑止することができる。

この例における危険行為としては、例えば、いたずら行為、危険動作、人への害などが想定される。いたずら行為としては、例えば、猫による家具を用いた爪とぎなどの、ペットによる室内の荒らし行為などが想定される。危険動作としては、例えば、子供がベランダの柵を乗り越えようとしている場合などの、生命に危険を及ぼし得る行為などが想定される。人への害としては、例えば、カラスのゴミ漁りなどによって人に被害を与える場合などが想定される。

同図におけるａに示すように、猫が家具を用いて爪とぎをしようとしている場合、猫がターゲットとして捕捉され、その移動量および形状の変化から爪とぎ行為に該当するか否かが判断される。この場合、爪とぎ行為が検知されると、出力装置３２０から警告の音声が出力される。

一方、同図におけるｂに示すように、猫がペットグッズや人間にじゃれているような場合には、猫がターゲットとして捕捉されるものの、その移動量および形状の変化から爪とぎ行為に該当しないと判断され、警告は行われない。

また、カラスがゴミ集積場に群がっている場合には、カラスがターゲットとして捕捉され、その移動量および形状の変化からゴミ漁り行為に該当するか否かが判断される。この場合、ゴミ漁り行為が検知されると、出力装置３２０から警告の音声が出力される。

一方、犬、猫、ペンギンなどの動物が散歩の際にゴミ集積場を通りかかった場合には、その動物がターゲットとして捕捉されるものの、その移動量および形状の変化からゴミ漁り行為に該当しないと判断され、警告は行われない。

なお、猫がベランダの柵に飛び乗ったような場合には、警告を行うか否かは適宜選択できるようにすることが考えられる。実際には、それを禁止するためには、柵に乗ってしまったら手遅れであり、飛び乗ろうとしている段階で止める必要がある。

図５は、本技術の実施の形態の第１の適用例における危険行為検知の処理手順例を示す流れ図である。

まず、撮像部１１０によって対象物を撮像することによって画像データが取得される（ステップＳ８１１）。取得された画像データは、時系列のフレームを構成する。

取得された各フレームは、フィルタ処理部１２０によって、ノイズが除去（ノイズリダクション）される（ステップＳ８１２）。また、フィルタ処理部１２０によって、特徴量の抽出が行われる（ステップＳ８１３）。

そして、二値化処理部１３０によってフレームにおける画像の色および輝度による二値化が行われる（ステップＳ８１４）。これにより、その後の処理対象となるデータ量が軽減される。

二値化されたフレームにおいて、猫などの対象物がターゲットとして決定される（ステップＳ８１５）。そして、時系列に隣接するフレーム間の差分がトラッキング処理部１４０によって生成されて、ターゲットの追跡（ターゲットトラッキング）が行われる（ステップＳ８１６）。

また、そのターゲットについて、モーメント生成部１５０によってモーメント演算が行われる（ステップＳ８１７）。モーメント生成部１５０によって生成されたモーメントに基づいて、重心位置生成部１６０が二値化フレームに含まれるターゲットの重心位置を生成する。また、集計処理部２１０によって、ターゲットの移動量および形状が算出される（ステップＳ８１８）。

このようにして算出されたターゲットの移動量および形状が条件設定部１０４に設定された設定値に合致するか否かを、集計処理部２１０が検知する。条件が合致する場合には（ステップＳ８１９：Ｙｅｓ）、制御部２２０は警告の音声を出力する制御信号を出力装置３２０に対して供給する（ステップＳ８２１）。

これらの処理は、時系列に並ぶ画像データのフレームのそれぞれについて繰り返し行われる。

このように、この第１の適用例では、フレームレートとして１０００ｆｐｓ以上の高フレームレートを想定して、対象物の移動量および形状などに基づいて行動を予測することにより、対象物の危険行為を検知することができる。

＜３．第２の適用例＞
図６は、本技術の実施の形態の第２の適用例における聴覚障害の補助の例を示す図である。本実施の形態における検知システムを用いて聴覚障害の補助を行うためには、画像センサ１００によって人物を撮像し、条件設定部１０４に設定された条件に合致するか否かを集計処理部２１０によって検知する。これにより、手話や唇の動きを読み取って、対応する字幕などを出力することができる。

ここでは、聴覚障害の補助の一例として、手話解析の例を示している。この例では、人物６２１が手話を行う様子を、携帯端末６２２によって撮像する。この携帯端末６２２には画像センサ１００が含まれており、その撮像部１１０によって撮像が行われる。撮像された画像に基づいてターゲットトラッキングやモーメント演算が行われ、人物６２１の指や腕が検出され、その形状、動き、面積などが計測される。そして、その動作が対応する単語にマッピングされる。

その結果、携帯端末６２２の表示部には、撮像された人物の画像６２３が表示されるとともに、対応する単語を表す字幕６２４が表示される。

図７は、本技術の実施の形態の第２の適用例における手話解析の処理手順例を示す流れ図である。

まず、撮像部１１０によって対象物を撮像することによって画像データが取得される（ステップＳ８３１）。取得された画像データは、時系列のフレームを構成する。

取得された各フレームは、フィルタ処理部１２０によって、ノイズが除去される（ステップＳ８３２）。また、フィルタ処理部１２０によって、特徴量の抽出が行われる（ステップＳ８３３）。

そして、二値化処理部１３０によってフレームにおける画像の色および輝度による二値化が行われる（ステップＳ８３４）。これにより、その後の処理対象となるデータ量が軽減される。

二値化されたフレームにおいて、手話を行う人物の指や腕がターゲットとして決定される（ステップＳ８３５）。そして、時系列に隣接するフレーム間の差分がトラッキング処理部１４０によって生成されて、ターゲットの追跡（ターゲットトラッキング）が行われる（ステップＳ８３６）。

また、そのターゲットについて、モーメント生成部１５０によってモーメント演算が行われる（ステップＳ８３７）。モーメント生成部１５０によって生成されたモーメントに基づいて、重心位置生成部１６０が二値化フレームに含まれるターゲットの重心位置を生成する。また、集計処理部２１０によって、ターゲットの動作（形状、動き、面積など）が算出される（ステップＳ８３８）。

このようにして算出されたターゲットの動作が条件設定部１０４に設定された設定値に合致するか否かを、集計処理部２１０が検知する。条件が合致する場合には（ステップＳ８３９：Ｙｅｓ）、制御部２２０はその動作を単語にマッピングする（ステップＳ８４１）。そして、その認識結果として字幕（テキスト情報）等を出力する制御信号を出力装置３２０に対して供給する（ステップＳ８４２）。

図８は、本技術の実施の形態の第２の適用例におけるリップリーディングの処理手順例を示す流れ図である。上述の流れ図では手話解析の例を示したが、聴覚障害の補助の他の例としてリップリーディングを行うことが考えられる。リップリーディング（読唇）とは、唇の動きおよび形状などに基づいてその発話内容を読み取ることである。

まず、撮像部１１０によって対象物を撮像することによって画像データが取得される（ステップＳ８５１）。取得された画像データは、時系列のフレームを構成する。

取得された各フレームは、フィルタ処理部１２０によって、ノイズが除去される（ステップＳ８５２）。また、フィルタ処理部１２０によって、特徴量の抽出が行われる（ステップＳ８５３）。

そして、二値化処理部１３０によってフレームにおける画像の色および輝度による二値化が行われる（ステップＳ８５４）。これにより、その後の処理対象となるデータ量が軽減される。

二値化されたフレームにおいて、人物の唇（口元）がターゲットとして決定される（ステップＳ８５５）。そして、時系列に隣接するフレーム間の差分がトラッキング処理部１４０によって生成されて、ターゲットの追跡（ターゲットトラッキング）が行われる（ステップＳ８５６）。

また、そのターゲットについて、モーメント生成部１５０によってモーメント演算が行われる（ステップＳ８５７）。モーメント生成部１５０によって生成されたモーメントに基づいて、重心位置生成部１６０が二値化フレームに含まれるターゲットの重心位置を生成する。また、集計処理部２１０によって、ターゲットの動作（形状、動き、面積など）が算出される（ステップＳ８５８）。

このようにして算出されたターゲットの動作が条件設定部１０４に設定された設定値に合致するか否かを、集計処理部２１０が検知する。条件が合致する場合には（ステップＳ８５９：Ｙｅｓ）、制御部２２０はその動作に対応する発話内容を単語にマッピングする（ステップＳ８６１）。そして、その認識結果として字幕（テキスト情報）等を出力する制御信号を出力装置３２０に対して供給する（ステップＳ８６２）。

なお、この例では、リップリーディングの結果をテキスト情報により出力する例を示したが、リップリーディングの結果に基づいて出力装置３２０に手話情報を出力させるようにしてもよい。

このように、この第２の適用例では、フレームレートとして１０００ｆｐｓ以上の高フレームレートを想定して、人物の一部の動きに基づいてその行動の意味を認識することにより、聴覚障害を補助することができる。

＜４．第３の適用例＞
図９は、本技術の実施の形態の第３の適用例における複数条件による検知の例を示す図である。

街中での周辺状況調査などでは、車や歩行者が自由に動いており、それぞれが正面を向いているとは限らない。これらを的確に判別して検知するためには複数の検知条件を設定して、それらを高速に検知していくことが有用である。この例では、高フレームレートを想定することにより、検知処理を時分割に実行して、あたかも並列に動作しているかのように処理して高速化を図る。

この例の繁華街の道路では、車両として、自動車６３１、トラック６３２、トゥクトゥク６３３、および、自転車（サムロー）６３４などが混在して通行している。通行量調査では、画像センサ１００によって道路の様子を撮像し、その画像について条件設定部１０４に設定された車両の種類の条件に合致するか否かを集計処理部２１０によって検知することにより、それぞれの車両の種類を検知する。そして、その検知された車両について種類別に計数する。

この場合、画像内の対象物が何れの種類の車両であるかは、種類ごとに別々の検知条件として条件設定部１０４に設定される。これら検知条件は別個のものであり、互いに独立に検知を行うことが可能である。

また、同様の手法により、指名手配犯を検知することもできる。繁華街の画像において人物の特徴量を算出して、検出された顔画像をデータベースの画像と比較することにより、指名手配犯の検知を行う。この場合においても、顔画像の検知に用いられる検知条件は別個のものであり、互いに独立に検知を行うことが可能である。

図１０は、本技術の実施の形態の第３の適用例における複数の条件とフレームとの関係例を示す図である。ここでは、条件設定部１０４に４つの条件４４１乃至４４４が設定されていることを想定する。また、フレームレートとして１０００ｆｐｓ以上の高フレームレートを想定する。

この例では、第１フレームにおいては第１の条件４４１の検知を行い、第２フレームにおいては第２の条件４４２の検知を行い、第３フレームにおいては第３の条件４４３の検知を行い、第４フレームにおいては第４の条件４４４の検知を行う。これら４つの条件４４１乃至４４４は別個のものであり、互いに独立に検知を行うことが可能である。高フレームレートを想定した場合、１つの条件の検知を全てのフレームに対して行う必要はなく、フレームを間引いて行っても誤差を生じる可能性は少ない。この例のように別個のフレームに対して時分割に検知を行うことにより、あたかも並列に動作しているかのような処理を行うことが可能である。

例えば、５０ｆｐｓの動作を基準とすると、１０００ｆｐｓで動作すれば２０倍の速度で検知を行うことが可能になる。検知する種類および数を２０倍にすることができる。上述の例では、自動車６３１、トラック６３２、トゥクトゥク６３３、および、自転車（サムロー）６３４をそれぞれ５台ずつで２０個の検知に該当する。５０ｆｐｓの動作で１つの検知を行っていた場合、１０００ｆｐｓで動作すればこれら２０個の検知を同等の時間で行うことができることになる。

このように、この第３の適用例では、フレームレートとして１０００ｆｐｓ以上の高フレームレートによる処理を想定することにより、複数の条件による検知をリアルタイムに行うことができる。

ここまで説明したように、本技術の実施の形態によれば、対象物を高フレームレートにより撮像して画像センサ１００内に設定された条件で検知することにより、対象物の形状変化から行動認識をリアルタイムに行うことができる。

なお、上述の実施の形態は本技術を具現化するための一例を示したものであり、実施の形態における事項と、特許請求の範囲における発明特定事項とはそれぞれ対応関係を有する。同様に、特許請求の範囲における発明特定事項と、これと同一名称を付した本技術の実施の形態における事項とはそれぞれ対応関係を有する。ただし、本技術は実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において実施の形態に種々の変形を施すことにより具現化することができる。

また、上述の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。この記録媒体として、例えば、ＣＤ（Compact Disc）、ＭＤ（MiniDisc）、ＤＶＤ（Digital Versatile Disc）、メモリカード、ブルーレイディスク（Blu-ray（登録商標）Disc）等を用いることができる。

なお、本明細書に記載された効果はあくまで例示であって、限定されるものではなく、また、他の効果があってもよい。

なお、本技術は以下のような構成もとることができる。
（１）対象物を撮像して時系列に並ぶ画像データのフレームを生成する撮像素子と、
前記フレームの各々に対して二値化処理を行って二値化フレームを生成する二値化処理部と、
時系列に隣接する前記二値化フレームの間の差分を生成して前記二値化フレームに含まれる前記対象物の位置の変化を追跡するトラッキング処理部と、
前記トラッキング処理部による結果に基づいて前記二値化フレームに含まれる前記対象物のモーメントを算出するモーメント生成部と、
前記画像データから所定の事象を検知するための条件を設定する条件設定部と、
前記対象物のモーメントと前記条件設定部に設定された前記条件とを比較して前記所定の事象を検知する検知部と、
前記検知の結果に応じて出力装置に制御信号を供給する制御信号供給部と
を具備する画像センサ。
（２）前記フレームの各々に対してフィルタ処理を施すフィルタ処理部をさらに具備し、
前記二値化処理部は、前記フィルタ処理の施されたフレームの各々に対して前記二値化処理を行う
前記（１）に記載の画像センサ。
（３）前記モーメント生成部によって生成された前記モーメントに基づいて前記二値化フレームに含まれる前記対象物の重心位置を生成する重心位置生成部をさらに具備する前記（１）または（２）に記載の画像センサ。
（４）前記検知部は、前記対象物の移動量および形状に基づいて前記所定の事象として危険行為を検知し、
前記制御信号供給部は、前記危険行為を検知すると前記出力装置に警告を出力させる前記制御信号を供給する
前記（１）から（３）のいずれかに記載の画像センサ。
（５）前記検知部は、前記対象物の動きおよび形状に基づいて前記所定の事象として手話のパターンを検知して手話解析を行い、
前記制御信号供給部は、前記手話解析に基づいて前記出力装置にテキスト情報を出力させる前記制御信号を供給する
前記（１）から（３）のいずれかに記載の画像センサ。
（６）前記検知部は、前記対象物における唇の動きおよび形状に基づいて前記所定の事象として発話内容のパターンを検知して読唇を行い、
前記制御信号供給部は、前記読唇の結果に基づいて前記出力装置にテキスト情報を出力させる前記制御信号を供給する
前記（１）から（３）のいずれかに記載の画像センサ。
（７）前記検知部は、前記対象物における唇の動きおよび形状に基づいて前記所定の事象として発話内容のパターンを検知して読唇を行い、
前記制御信号供給部は、前記読唇の結果に基づいて前記出力装置に手話情報を出力させる前記制御信号を供給する
前記（１）から（３）のいずれかに記載の画像センサ。
（８）前記条件設定部は、複数の前記条件を設定し、
前記検知部は、前記複数の条件について独立に前記検知を行う
前記（１）から（７）のいずれかに記載の画像センサ。

１００画像センサ
１０１検知フェーズ
１０４条件設定部
１１０撮像部
１２０フィルタ処理部
１３０二値化処理部
１４０トラッキング処理部
１５０モーメント生成部
１６０重心位置生成部
２１０集計処理部
２２０制御部
２３０インターフェース
３１０操作入力装置
３２０出力装置
４０１学習フェーズ
４１０カメラ
４１１撮像部
４２０制御部
４３０行動学習装置
４４０条件保持部
６２１人物
６２２携帯端末
６２４字幕
６３１自動車
６３２トラック
６３３トゥクトゥク
６３４自転車（サムロー）

Claims

対象物を撮像して時系列に並ぶ画像データのフレームを生成する撮像素子と、
前記フレームの各々に対して二値化処理を行って二値化フレームを生成する二値化処理部と、
時系列に隣接する前記二値化フレームの間の差分を生成して前記二値化フレームに含まれる前記対象物の位置の変化を追跡するトラッキング処理部と、
前記トラッキング処理部による結果に基づいて前記二値化フレームに含まれる前記対象物のモーメントを算出するモーメント生成部と、
前記画像データから所定の事象を検知するための条件を設定する条件設定部と、
前記対象物のモーメントと前記条件設定部に設定された前記条件とを比較して前記所定の事象を検知する検知部と、
前記検知の結果に応じて出力装置に制御信号を供給する制御信号供給部と
を具備する画像センサ。
前記フレームの各々に対してフィルタ処理を施すフィルタ処理部をさらに具備し、
前記二値化処理部は、前記フィルタ処理の施されたフレームの各々に対して前記二値化処理を行う
請求項１記載の画像センサ。
前記モーメント生成部によって生成された前記モーメントに基づいて前記二値化フレームに含まれる前記対象物の重心位置を生成する重心位置生成部をさらに具備する請求項１記載の画像センサ。
前記検知部は、前記対象物の移動量および形状に基づいて前記所定の事象として危険行為を検知し、
前記制御信号供給部は、前記危険行為を検知すると前記出力装置に警告を出力させる前記制御信号を供給する
請求項１記載の画像センサ。
前記検知部は、前記対象物の動きおよび形状に基づいて前記所定の事象として手話のパターンを検知して手話解析を行い、
前記制御信号供給部は、前記手話解析に基づいて前記出力装置にテキスト情報を出力させる前記制御信号を供給する
請求項１記載の画像センサ。
前記検知部は、前記対象物における唇の動きおよび形状に基づいて前記所定の事象として発話内容のパターンを検知して読唇を行い、
前記制御信号供給部は、前記読唇の結果に基づいて前記出力装置にテキスト情報を出力させる前記制御信号を供給する
請求項１記載の画像センサ。
前記検知部は、前記対象物における唇の動きおよび形状に基づいて前記所定の事象として発話内容のパターンを検知して読唇を行い、
前記制御信号供給部は、前記読唇の結果に基づいて前記出力装置に手話情報を出力させる前記制御信号を供給する
請求項１記載の画像センサ。
前記条件設定部は、複数の前記条件を設定し、
前記検知部は、前記複数の条件について独立に前記検知を行う
請求項１記載の画像センサ。