[go: up one dir, main page]

JP2018113660A - 情報処理装置、情報処理方法、システム - Google Patents

情報処理装置、情報処理方法、システム Download PDF

Info

Publication number
JP2018113660A
JP2018113660A JP2017004616A JP2017004616A JP2018113660A JP 2018113660 A JP2018113660 A JP 2018113660A JP 2017004616 A JP2017004616 A JP 2017004616A JP 2017004616 A JP2017004616 A JP 2017004616A JP 2018113660 A JP2018113660 A JP 2018113660A
Authority
JP
Japan
Prior art keywords
control amount
information processing
unit
estimation
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017004616A
Other languages
English (en)
Other versions
JP6912890B2 (ja
JP2018113660A5 (ja
Inventor
矢野 光太郎
Kotaro Yano
光太郎 矢野
河合 智明
Tomoaki Kawai
智明 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017004616A priority Critical patent/JP6912890B2/ja
Priority to US15/845,329 priority patent/US10455144B2/en
Publication of JP2018113660A publication Critical patent/JP2018113660A/ja
Publication of JP2018113660A5 publication Critical patent/JP2018113660A5/ja
Application granted granted Critical
Publication of JP6912890B2 publication Critical patent/JP6912890B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/62Control of parameters via user interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/69Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Burglar Alarm Systems (AREA)
  • Alarm Systems (AREA)
  • Image Processing (AREA)

Abstract

【課題】 操作者の意図を汲んだ撮像制御を精度良く行うための技術を提供すること。【解決手段】 撮像装置による撮像画像から検出したオブジェクトの領域に基づいて、該撮像装置の制御量を推定する。ユーザ操作に応じて指示された撮像装置の制御量と推定した制御量との差分に基づく評価値をより小さくするように、推定に要するパラメータを更新する。【選択図】 図1

Description

本発明は、撮像装置の制御技術に関するものである。
従来から、撮像レンズのパン、チルト機構やズーム機構を制御信号によって制御することで撮影方向および撮影倍率を変更可能なカメラが開発されている。このようなカメラは監視用途に有用であり、例えば、カメラで撮影した映像に不審者が写った場合に撮影方向や倍率を変更することで不審者を追尾したりズームアップしたりすることができる。
しかしながら、監視者がカメラの映像を見てカメラの制御を行うためには、熟練した操作が必要であり、長時間操作を続けたり、多数のカメラに対して操作したりすることは困難である。このような課題に対応するために、特許文献1では、カメラを電動の雲台と電動のズームレンズによって自動的に制御し、人物を検出して追尾する監視装置が提案されている。一方、特許文献2では、画像パターンと操作者のカメラ制御との関係をニューラルネットワークで学習し、撮像制御を自動化する監視制御装置が提案されている。
特開2003−219225号公報 特開2004−56473号公報
Dalal and Triggs. Histograms of Oriented Gradients for Human Detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2005
しかしながら、特許文献1では、単に検出した人物をズームアップして追尾するだけであり、対象外の人物であっても追尾制御を行ってしまうため、追尾中により重要なイベントが発生した場合に取りこぼしてしまう恐れがある。
また、特許文献2では、映像中の人物の有無に関わらず操作者が行う追尾操作と画像パターンの関係を単純に学習するだけなので、人物が映っていない場合にも間違った撮影制御を行ってしまう恐れがある。
本発明はこのような問題に鑑みてなされたものであり、操作者の意図を汲んだ撮像制御を精度良く行うための技術を提供する。
本発明の一様態は、撮像装置による撮像画像から検出したオブジェクトの領域に基づいて、該撮像装置の制御量を推定する推定手段と、ユーザ操作に応じて指示された前記撮像装置の制御量と前記推定手段が推定した制御量との差分に基づく評価値をより小さくするように、前記推定に要するパラメータを更新する学習手段とを備えることを特徴とする。
本発明の構成により、操作者の意図を汲んだ撮像制御を精度良く行うことができる。
システムの構成例を示すブロック図。 推定パラメータの学習処理のフローチャート。 制御量推定部140の構成例を示すブロック図。 深層ニューラルネットワークの構成例を示す図。 自動制御処理のフローチャート。 コンピュータ装置のハードウェア構成例を示すブロック図。
以下、添付図面を参照し、本発明の実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載した構成の具体的な実施例の1つである。
[第1の実施形態]
先ず、本実施形態に係るシステムの構成例について、図1のブロック図を用いて説明する。図1に示す如く、本実施形態に係るシステムは、カメラ200と、該カメラ200の動作制御を行う情報処理装置100と、を有する。
先ず、カメラ200について説明する。カメラ200は、撮像レンズのパン、チルト機構、ズーム機構を有するものであり、カメラ200のパン、チルト、ズームは情報処理装置100から制御することができる。カメラ200は、情報処理装置100からの制御に応じて動画像を撮像する。そしてカメラ200は、撮像した動画像を構成する各フレームの画像(撮像画像)を情報処理装置100に対して出力する。カメラ200は、静止画像を撮像するカメラであっても良い。
次に、情報処理装置100について説明する。
操作部400は、マウスやキーボード、タッチパネル画面などのユーザインターフェースにより構成されており、ユーザが操作することで各種の指示を撮影制御部300に対して入力することができる。
撮影制御部300は、操作部400からの操作指示、若しくは制御量推定部140が後述する推定処理によって推定した「パン、チルト、ズーム等の制御量」に従って、カメラ200のパン、チルト、ズーム等を制御するための制御信号を生成する。以下では、カメラ200の「パン、チルト、ズーム等の制御量」を単に制御量と呼称する場合がある。そして撮影制御部300は、該生成した制御信号をカメラ200に対して出力する。カメラ200は、この制御信号に従って、撮像レンズのパン、チルト、ズームを制御する。
操作情報取得部120は、撮影制御部300が生成した制御信号から、該制御信号が示す制御量を取得する。画像取得部110は、カメラ200から出力された撮像画像を取得する。
人検出部130は、画像取得部110が取得した撮像画像から人物が写っている領域(人物領域)を検出する。表示部500は、CRTや液晶画面などにより構成されており、画像取得部110が取得した撮像画像を表示する。
制御量推定部140は、画像取得部110が取得した撮像画像、人検出部130による該撮像画像からの検出結果、記憶部160に格納されている推定パラメータ、を用いて、該撮像画像中の人物領域ごとに、制御量と、該人物領域内の人物に対する注目の度合いを示す値(注目度)と、を推定する。
学習部150は、画像取得部110が取得した撮像画像中の人物領域ごとに、注目度を取得する。学習部150は、画像取得部110が取得した撮像画像中の人物領域の位置や、その人物領域の人物へのユーザの操作(ズームアップ)等に基づいて、ユーザがその人物領域をどの程度注目しているのかを推定することにより、その注目度を取得する。そして学習部150は、該取得した注目度、操作情報取得部120が取得した制御量、制御量推定部140が推定した制御量及び注目度、を用いて、記憶部160に格納されている推定パラメータを更新(学習)する。
情報処理装置100が行う、推定パラメータの学習処理について、同処理のフローチャートを示す図2を用いて説明する。
ステップS100では、画像取得部110は、カメラ200から出力された撮像画像を取得する。本実施形態では、撮像画像は、各画素のR(赤)、G(緑)、B(青)の各色成分の輝度値が8ビットで表されるカラー画像データであるものとする。しかし、撮像画像はカラー画像データに限らず、モノクロ画像データであっても良いし、各画素の色成分の種類やビット数もまた特定の種類、ビット数に限らない。
ステップS110では、人検出部130は、ステップS100で取得した撮像画像から人物領域を検出する。画像から人を検出する方法としては、例えば非特許文献1に記載の方法がある。非特許文献1に記載の方法では、画像から勾配方向ヒストグラム特徴(Histograms of Oriented Gradients)を抽出し、抽出した特徴量をサポートベクターマシンで学習したモデルを用いて人か否かを識別するようにしている。なお、撮像画像から人物領域を検出するための方法は、非特許文献1に開示されている方法に限らない。例えば、抽出する特徴量は勾配方向ヒストグラム特徴に限らず、Haar-like特徴、LBPH特徴(Local Binary Pattern Histogram)等を用いてもよいし、それらを組み合せてもよい。また、人を識別するモデルはサポートベクターマシンに限らず、アダブースト識別器、ランダム分類木(Randomized Tree)等を用いてもよい。なお、人検出部130は、撮像画像中に複数人の人が写っている場合には、それぞれの人を検出することになる。
そして人検出部130は、人物領域を検出すると、該人物領域の四隅の画像座標と、該人物領域に対する尤度と、を出力する。人物領域に対する尤度とは、該人物領域から抽出した特徴量と人を識別するモデルとを照合した結果であり、モデルとの一致度を表す。
ステップS120では、制御量推定部140は、ステップS100で取得した撮像画像中の人物領域について、制御量と、該人物領域内の人物に対する注目の度合いを示す値(注目度)と、を推定する。ステップS120における処理は、ステップS100で取得した撮像画像中のそれぞれの人物領域について行われる。そして、ステップS100で取得した撮像画像中のそれぞれの人物領域についてステップS120の処理が完了すると、処理はステップS170に進む。ここで、制御量推定部140の構成例について、図3のブロック図を用いて説明する。
領域抽出部141は、ステップS100で取得した撮像画像から、人検出部130が検出した人物領域(人検出部130が検出した四隅の画像座標で規定される領域)内の画像を抽出し、該抽出した画像を規定サイズに正規化した正規化画像を生成する。
特徴抽出部142及び推定部143は、図4に示す深層ニューラルネットワークで構成されている。図4に示す深層ニューラルネットワークでは、縦H画素×横W画素を有する入力画像(正規化画像)を入力として5層構成の畳込み型ニューラルネットワークの演算を行い、その演算結果を第6層及び第7層の全結合ニューラルネットワークに入力して出力を得る。f1〜f5はそれぞれ、第1層(Conv1)〜第5層(Conv5)の畳込み演算のフィルタサイズを表し、d1〜d7はそれぞれ、第1層〜第7層(第6層及び第7層はそれぞれFc6,Fc7)の出力チャネル数を表す。
第1層〜第5層の畳込み型ニューラルネットワークは特徴抽出部142に含まれており、特徴抽出部142は、第1層〜第5層の畳込み型ニューラルネットワークによって入力画像から画像特徴量を抽出する。そして特徴抽出部142は、該入力画像から抽出した画像特徴量を出力する。
第6層及び第7層の全結合ニューラルネットワークは推定部143に含まれている。推定部143は、第6層及び第7層の全結合ニューラルネットワークによって、特徴抽出部142から出力された人物領域の画像特徴量、人検出部130から出力された四隅の画像座標、尤度から該人物領域に対応する制御量及び注目度を求める。
図3に戻って、統合部144は、情報処理装置100が推定パラメータの学習処理を行っている際には動作せず、推定部143からの出力(人物領域に対応する制御量及び注目度)をそのまま学習部150に対して出力する。情報処理装置100が推定パラメータの学習処理を行っていないときの統合部144の動作については後述する。
以上説明した図3の構成を用いてステップS120の処理を撮像画像中のそれぞれの人物領域について行うことで、該人物領域に対応する制御量及び注目度を推定することができる。
一方、ステップS100で取得した撮像画像は、ステップS130において表示部500に表示される。ここでユーザが操作部400を操作して、カメラ200のパン、チルト、ズームなどを操作する指示(操作指示)を入力すると、ステップS140において撮影制御部300は、操作部400からの操作指示を取得する。
ステップS150では、撮影制御部300は、ステップS140で取得した操作指示に従って、カメラ200のパン、チルト、ズーム等を制御するための制御信号を生成し、該生成した制御信号をカメラ200に対して出力する。これによりカメラ200は、撮影制御部300から出力された制御信号に従って、パン、チルト、ズーム等を変更する。
ステップS160では、操作情報取得部120は、ステップS150において撮影制御部300が生成した制御信号から、該制御信号が示す制御量を取得する。
ステップS170では、学習部150は、ステップS120において制御量推定部140がそれぞれの人物領域について推定した制御量及び注目度と、ステップS160において操作情報取得部120が取得した制御量と、を取得する。更に学習部150は、人検出部130による検出結果と操作情報取得部120が取得した制御量とから、撮像画像においてユーザがどの人物に注目したのかを判定して、該撮像画像内のそれぞれの人物領域について注目度を取得する。ユーザが操作部400を操作して撮像画像の中央に近づけたりズームアップした人物(人物領域)の注目度を「1」、その他の人物(人物領域)の注目度を「0」とする。また、何も操作を行わなかった場合は検出した全ての人物の注目度は「0」となる。
この様に学習部150は1フレーム分の撮像画像について「制御量推定部140が推定した人物領域ごとの制御量及び注目度、操作情報取得部120が取得した制御量、学習部150が撮像画像から取得した人物領域ごとの注目度」を学習データとして取得する。
そして、学習部150が学習データを規定フレーム数分収集できた場合には、処理はステップS180に進む。一方、学習データを規定フレーム数分収集できていない場合には、次のフレームについてステップS100以降の処理を繰り返す。
なお、ステップS180に進むための条件は特定の条件に限らない。例えば、制御量推定部140が推定したデータ量が規定量以上になった場合に、ステップS180に進むようにしても良い。
ステップS180では、学習部150は、記憶部160に格納されている推定パラメータ、すなわち、上記の第6層及び第7層の全結合ニューラルネットワークにおけるニューロン間の結合係数を、学習データを用いて更新(学習)する。
ここで、学習データを用いた推定パラメータの更新処理について説明する。制御量推定部140が規定フレーム数の撮像画像から収集した制御量及び注目度をそれぞれ、C={C1,C2,…,Cn}、a={a1,a2,…,an}とする。nは2以上の整数である。nが大きいほど精度の高い学習が可能であるが、その分だけ学習に時間がかかる。ここで、Ci、ai(1≦i≦n)はそれぞれ、同フレームにおける撮像画像において同じ人物領域に対して制御量推定部140が推定した制御量、注目度である。なお、Ci=(Pi、Ti、Zi)であり、Piはパンの制御量、Tiはチルトの制御量、Ziはズームの制御量を表す。また、Ciを求めた撮像画像について操作情報取得部120が取得した制御量をC^iとする。C^i=(P^i、T^i、Z^i)であり、P^iはパンの制御量、T^iはチルトの制御量、Z^iはズームの制御量を表す。また、aiを求めた人物領域について学習部150が取得した注目度をa^iとする。
本実施形態では、平均損失の勾配から推定パラメータを求める確率的勾配降下法を用いる。本実施形態では、平均損失として制御量及び注目度の差異(差分)を評価する。損失関数(評価値)は以下に示す(式1)で求める。
L=Σ{w1×(Pi−P^i)2+w2×(Ti−T^i)2+w3×(Zi−Z^i)2+w4×(ai−a^i)2} (式1)
w1、w2、w3、w4は規定の重み係数である。また、Σは全てのi(=1〜n)についての総和を表す。学習に用いるデータは全てを用いてもよいし、ランダムに所定数分選択してもかまわない。
学習部150は、上記の第6層及び第7層における結合係数(推定パラメータ)を微小量だけ変化させて得た学習データから(式1)に基づく勾配をそれぞれ求めて、平均損失が小さくなるように推定パラメータを学習する。学習した推定パラメータは、記憶部160に格納済みの推定パラメータに上書き保存され、これにより、記憶部160に格納されている推定パラメータが更新される。
推定パラメータの学習の終了条件については様々な条件が考えられる。すなわち、損失関数の値の変化量が規定値未満となった場合や、学習回数が規定値に達した場合に、学習を終了させても良い。また、ユーザが操作部400を操作して学習の終了指示を入力した場合に、学習を終了させても良い。
次に、上記の学習が完了した後、情報処理装置100が推定パラメータを用いてカメラ200のパン、チルト、ズームなどを制御する自動制御処理について、同処理のフローチャートを示す図5を用いて説明する。
ここで、ステップS200〜S220の各ステップにおける処理はそれぞれ、次の点を除き、上記のステップS100〜S120と同様である。ステップS220で動作する上記の第6層及び第7層の全結合ニューラルネットワークの結合係数は、上記の学習によって更新された(更新済みの)推定パラメータである。そして、ステップS200で取得した撮像画像中のそれぞれの人物領域についてステップS220の処理が完了すると、処理はステップS230に進む。
ステップS230では、制御量推定部140の統合部144は、推定部143が人物領域毎に出力した制御量を統合することで、カメラ200の制御量を決定する。統合する方法には様々な統合方法がある。例えば統合部144は、推定部143から出力された人物領域ごとの制御量のうち、対応する注目度が最も高い制御量を統合結果として出力する。また統合部144は、複数の人物領域から推定した制御量を、対応する注目度を重みとして重み付け平均した結果を統合結果として出力する。
ステップS240では、撮影制御部300は、ステップS230で統合結果として統合部144から出力された制御量を表す制御信号を生成し、該生成した制御信号をカメラ200に対して出力する。これによりカメラ200は、撮影制御部300から出力された制御信号に従って動作する。
図5のフローチャートに従った処理は、1フレーム分の撮像画像についての処理であるため、実際には、カメラ200から入力される撮像画像毎に図5のフローチャートに従った処理が行われる。なお、図5のフローチャートに従った処理の終了条件については特定の終了条件に限らない。例えば、ユーザが操作部400を操作して図5のフローチャートに従った処理の終了指示を入力した場合に、図5のフローチャートに従った処理を終了させるようにしても良い。なお、上述の説明では、制御量及び注目度の両方を学習(更新)するようにしているが、その一方のみを学習(更新)する態様であっても構わない。
[第2の実施形態]
図1に示した情報処理装置100を構成する各機能部はハードウェアで構成しても良いし、一部をソフトウェア(コンピュータプログラム)で構成しても良い。後者の場合、撮影制御部300、操作情報取得部120、画像取得部110、人検出部130、制御量推定部140、学習部150をソフトウェアで構成しても良い。このような場合、該ソフトウェアを実行可能なプロセッサを有するコンピュータ装置であれば、情報処理装置100に適用可能である。
情報処理装置100に適用可能なコンピュータ装置のハードウェア構成例について、図6のブロック図を用いて説明する。なお、情報処理装置100に適用可能なコンピュータ装置のハードウェア構成例は、図6に示した構成に限らない。また、情報処理装置100は、1台のコンピュータ装置で構成しても良いし、複数台のコンピュータ装置で構成しても良い。
CPU601は、RAM602やROM603に格納されているコンピュータプログラムやデータを用いて処理を実行する。これによりCPU601は、コンピュータ装置全体の動作制御を行うと共に、情報処理装置100が行うものとして上述した各処理を実行若しくは制御する。
RAM602は、ROM603や外部記憶装置606からロードされたコンピュータプログラムやデータ、I/F(インターフェース)607を介して外部(例えばカメラ200)から受信したデータを格納するためのエリアを有する。更にRAM602は、CPU601が各種の処理を実行する際に用いるワークエリアを有する。このようにRAM602は、各種のエリアを適宜提供することができる。ROM603には、書換不要のコンピュータプログラムや設定データなどが格納されている。
操作部604は、上記の操作部400に適用可能なユーザインターフェースであり、ユーザが操作することで各種の指示をCPU601に対して入力することができる。表示部605は、上記の表示部500に適用可能な表示装置であり、CPU601による処理結果を画像や文字などでもって表示することができる。なお、操作部604と表示部605とを一体化させてタッチパネル画面を構成しても良い。
外部記憶装置606は、ハードディスクドライブ装置に代表される大容量情報記憶装置である。上記の記憶部160は、RAM602や外部記憶装置606によって実装することができる。外部記憶装置606には、OS(オペレーティングシステム)や、情報処理装置100が行うものとして上述した各処理をCPU601に実行若しくは制御させるためのコンピュータプログラムやデータが保存されている。外部記憶装置606に保存されているコンピュータプログラムには、上記のソフトウェアが含まれている。また、外部記憶装置606に保存されているデータには、上記の説明において既知の情報として説明したデータが含まれている。外部記憶装置606に保存されているコンピュータプログラムやデータは、CPU601による制御に従って適宜RAM602にロードされ、CPU601による処理の対象となる。
I/F607は、情報処理装置100を外部の機器と接続するためのインターフェースとして機能するものであり、例えば、上記のカメラ200を情報処理装置100に接続するためのインターフェースとして機能する。CPU601、RAM602、ROM603、操作部604、表示部605、外部記憶装置606、I/F607は何れもバス608に接続されている。
このように、上記の実施形態では、検出結果から推定した制御量とユーザ操作との差異が小さくなるように学習を行うので、ユーザの意図を汲んだ撮影制御の学習が可能となる。さらに、損失を制御量の差異で評価すると同時に注目度も評価しており、意図しない人物の追尾や人物が映っていない場合の間違った撮影制御を回避することができる。
なお、上記の実施形態では、制御量推定部140はニューラルネットワークを含むものとしたが、人検出部130も同様にニューラルネットワークを含むようにしても良い。このとき、上記の特徴抽出部142を人検出部130と共有することが可能である。また、制御量推定部140をサポートベクター回帰等の他の機械学習による推定部で構成することも可能である。
また、上記の実施形態では、制御量推定部140は人検出部130の結果と画像から制御量を推定するようにしたが、人検出部130の結果のみを用いても制御量を推定することは可能である。
また、上記の実施形態では、制御量推定部140は静止画における人検出部130の結果と画像から制御量を推定するようにしたが、時系列画像の複数フレームの人検出部130の結果を結合した時空間画像から制御量を推定するようにしてもよい。これにより、ユーザが人のどのような動きに注目して操作したかを学習することができる。
また、上記の実施形態では、制御量推定部140は人検出部130が出力する人物領域の四隅の画像座標と尤度とを用いて制御量を推定するようにしたが、この推定に用いる情報は、画像中の人の位置を表す情報であればよい。例えば、人の存在確率を表す尤度を二次元の座標位置に対応させた尤度マップのようなものでもよい。
また、上記の実施形態では、学習部150は、制御量推定部140が推定する画像中の複数の推定結果を別々に学習データとして取得するようにしたが、制御量推定部140の統合部144で一つの推定結果として統合した後に学習データとするようにしてもよい。あるいは、複数の推定結果をRNN(Recurrent Neural Network)やLSTM(Long short-term memory)等の再帰型のニューラルネットワークを用いて統合して推定するようにしても良い。この場合、学習部150でその出力を学習データとして取得する。
また、上記の実施形態では、検出対象として人物(人物領域)を例にとり説明したが、検出対象は人物に限らず、人物以外のオブジェクトを検出対象としても良い。また、図1ではカメラの台数を1としているが、これに限らず、複数台のカメラを制御対象としても良い。また、上記の実施形態では、制御量は、カメラ200のパン、チルト、ズームの3つを含むものとしたが、これに限らず、パン、チルト、ズームうち少なくとも1つを含むようにしても良い。なお、上記の様々な変形例の一部若しくは全部を適宜組み合わせても構わない。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
400:操作部 300:撮影制御部 120:操作情報取得部 110:画像取得部 130:人検出部 140:制御量推定部 150:学習部 160:記憶部

Claims (12)

  1. 撮像装置による撮像画像から検出したオブジェクトの領域に基づいて、該撮像装置の制御量を推定する推定手段と、
    ユーザ操作に応じて指示された前記撮像装置の制御量と前記推定手段が推定した制御量との差分に基づく評価値をより小さくするように、前記推定に要するパラメータを更新する学習手段と
    を備えることを特徴とする情報処理装置。
  2. 前記推定手段は、
    前記領域内の画像特徴量を求める第1の手段と、
    前記画像特徴量と、前記領域の画像座標と、前記領域の尤度と、に基づいて、前記撮像装置の制御量を推定する第2の手段と
    を備えることを特徴とする請求項1に記載の情報処理装置。
  3. 前記第2の手段は、全結合ニューラルネットワークを有し、前記パラメータは該全結合ニューラルネットワークにおけるニューロン間の結合係数であることを特徴とする請求項2に記載の情報処理装置。
  4. 前記学習手段は、前記評価値をより小さくするように、確率的勾配降下法を用いて前記パラメータを更新することを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。
  5. 更に、
    前記学習手段により更新済みのパラメータを用いて前記推定手段が推定した前記撮像装置の制御量に基づいて、前記撮像装置の制御量を決定し、該決定した制御量に応じて前記撮像装置を制御する制御手段を備えることを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。
  6. 前記制御手段は、前記学習手段により更新済みのパラメータを用いて前記推定手段が推定した前記撮像装置の制御量のうち、対応する前記値が最も大きい制御量を、前記撮像装置の制御量として決定することを特徴とする請求項5に記載の情報処理装置。
  7. 前記制御手段は、前記学習手段により更新済みのパラメータを用いて前記推定手段が推定した前記撮像装置の制御量を、対応する前記値を重みとして重み付け平均した結果を、前記撮像装置の制御量として決定することを特徴とする請求項5に記載の情報処理装置。
  8. 前記制御量は、前記撮像装置のパン、チルト、ズームのうち少なくとも1つを含むことを特徴とする請求項1乃至7の何れか1項に記載の情報処理装置。
  9. 前記推定手段は更に、前記オブジェクトの領域に基づいて該オブジェクトに対する注目の度合いを示す値を推定し、
    前記学習手段は、前記撮像画像中における前記ユーザによる前記領域に対する注目の度合いを示す値と前記推定手段が推定した注目の度合いを示す値との差分に基づく前記評価値をより小さくするように、前記推定に要するパラメータを更新することを特徴とする請求項1乃至8の何れか1項に記載の情報処理装置。
  10. 撮像装置と、該撮像装置を制御する情報処理装置と、を有するシステムであって、
    前記情報処理装置は、
    前記撮像装置による撮像画像から検出したオブジェクトの領域に基づいて、該撮像装置の制御量を推定する推定手段と、
    ユーザ操作に応じて指示された前記撮像装置の制御量と前記推定手段が推定した制御量との差分に基づく評価値をより小さくするように、前記推定に要するパラメータを更新する学習手段と
    を備えることを特徴とするシステム。
  11. 情報処理装置が行う情報処理方法であって、
    前記情報処理装置の推定手段が、撮像装置による撮像画像から検出したオブジェクトの領域に基づいて、該撮像装置の制御量を推定する推定工程と、
    前記情報処理装置の学習手段が、ユーザ操作に応じて指示された前記撮像装置の制御量と前記推定工程で推定した制御量との差分に基づく評価値をより小さくするように、前記推定に要するパラメータを更新する学習工程と
    を備えることを特徴とする情報処理方法。
  12. コンピュータを、請求項1乃至9の何れか1項に記載の情報処理装置の各手段として機能させるためのコンピュータプログラム。
JP2017004616A 2017-01-13 2017-01-13 情報処理装置、情報処理方法、システム Active JP6912890B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017004616A JP6912890B2 (ja) 2017-01-13 2017-01-13 情報処理装置、情報処理方法、システム
US15/845,329 US10455144B2 (en) 2017-01-13 2017-12-18 Information processing apparatus, information processing method, system, and non-transitory computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017004616A JP6912890B2 (ja) 2017-01-13 2017-01-13 情報処理装置、情報処理方法、システム

Publications (3)

Publication Number Publication Date
JP2018113660A true JP2018113660A (ja) 2018-07-19
JP2018113660A5 JP2018113660A5 (ja) 2020-02-27
JP6912890B2 JP6912890B2 (ja) 2021-08-04

Family

ID=62841172

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017004616A Active JP6912890B2 (ja) 2017-01-13 2017-01-13 情報処理装置、情報処理方法、システム

Country Status (2)

Country Link
US (1) US10455144B2 (ja)
JP (1) JP6912890B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020065173A (ja) * 2018-10-17 2020-04-23 オリンパス株式会社 画像処理装置、学習装置、画像処理方法、学習方法およびプログラム
JP2021132293A (ja) * 2020-02-19 2021-09-09 キヤノン株式会社 撮影制御装置、撮像装置、撮影制御方法、及びプログラム
JP7614822B2 (ja) 2020-12-16 2025-01-16 キヤノン株式会社 光学機器および生成方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6852141B2 (ja) * 2018-11-29 2021-03-31 キヤノン株式会社 情報処理装置、撮像装置、情報処理装置の制御方法、および、プログラム
JP7490359B2 (ja) * 2019-12-24 2024-05-27 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0738798A (ja) * 1993-06-28 1995-02-07 Sanyo Electric Co Ltd オートフォーカス装置
JPH11252450A (ja) * 1998-03-06 1999-09-17 Canon Inc 画像処理装置及びコンピュータ読み取り可能な記憶媒体
JP2001128032A (ja) * 1999-10-22 2001-05-11 Nippon Hoso Kyokai <Nhk> カメラワーク学習装置
JP2009094585A (ja) * 2007-10-03 2009-04-30 Sony Corp 撮像装置、撮像方法、および、プログラム
JP2010183384A (ja) * 2009-02-06 2010-08-19 Nippon Hoso Kyokai <Nhk> 撮影カメラ学習装置及びそのプログラム
JP2011160044A (ja) * 2010-01-29 2011-08-18 Sanyo Electric Co Ltd 撮像装置
JP2015191334A (ja) * 2014-03-27 2015-11-02 キヤノン株式会社 情報処理装置、情報処理方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003219225A (ja) 2002-01-25 2003-07-31 Nippon Micro Systems Kk 動体画像監視装置
JP2004056473A (ja) 2002-07-19 2004-02-19 Matsushita Electric Ind Co Ltd 監視制御装置
JP4709101B2 (ja) * 2006-09-01 2011-06-22 キヤノン株式会社 自動追尾カメラ装置
JP5385752B2 (ja) * 2009-10-20 2014-01-08 キヤノン株式会社 画像認識装置、その処理方法及びプログラム
US10165157B2 (en) * 2013-02-19 2018-12-25 Disney Enterprises, Inc. Method and device for hybrid robotic/virtual pan-tilt-zoom cameras for autonomous event recording
US10003722B2 (en) * 2015-03-17 2018-06-19 Disney Enterprises, Inc. Method and system for mimicking human camera operation
US10659676B2 (en) * 2015-12-08 2020-05-19 Canon Kabushiki Kaisha Method and apparatus for tracking a moving subject image based on reliability of the tracking state
JP6798183B2 (ja) * 2016-08-04 2020-12-09 株式会社リコー 画像解析装置、画像解析方法およびプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0738798A (ja) * 1993-06-28 1995-02-07 Sanyo Electric Co Ltd オートフォーカス装置
JPH11252450A (ja) * 1998-03-06 1999-09-17 Canon Inc 画像処理装置及びコンピュータ読み取り可能な記憶媒体
JP2001128032A (ja) * 1999-10-22 2001-05-11 Nippon Hoso Kyokai <Nhk> カメラワーク学習装置
JP2009094585A (ja) * 2007-10-03 2009-04-30 Sony Corp 撮像装置、撮像方法、および、プログラム
JP2010183384A (ja) * 2009-02-06 2010-08-19 Nippon Hoso Kyokai <Nhk> 撮影カメラ学習装置及びそのプログラム
JP2011160044A (ja) * 2010-01-29 2011-08-18 Sanyo Electric Co Ltd 撮像装置
JP2015191334A (ja) * 2014-03-27 2015-11-02 キヤノン株式会社 情報処理装置、情報処理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020065173A (ja) * 2018-10-17 2020-04-23 オリンパス株式会社 画像処理装置、学習装置、画像処理方法、学習方法およびプログラム
JP7152244B2 (ja) 2018-10-17 2022-10-12 オリンパス株式会社 学習装置、学習方法およびプログラム
JP2021132293A (ja) * 2020-02-19 2021-09-09 キヤノン株式会社 撮影制御装置、撮像装置、撮影制御方法、及びプログラム
US11455743B2 (en) 2020-02-19 2022-09-27 Canon Kabushiki Kaisha Shooting control apparatus, image capturing apparatus, shooting control method, and storage medium
JP7324160B2 (ja) 2020-02-19 2023-08-09 キヤノン株式会社 撮影制御装置、撮像装置、撮影制御方法、及びプログラム
US12141999B2 (en) 2020-02-19 2024-11-12 Canon Kabushiki Kaisha Shooting control apparatus, image capturing apparatus, shooting control method, and storage medium
JP7614822B2 (ja) 2020-12-16 2025-01-16 キヤノン株式会社 光学機器および生成方法

Also Published As

Publication number Publication date
US20180205877A1 (en) 2018-07-19
JP6912890B2 (ja) 2021-08-04
US10455144B2 (en) 2019-10-22

Similar Documents

Publication Publication Date Title
KR102574141B1 (ko) 이미지 디스플레이 방법 및 디바이스
US10445887B2 (en) Tracking processing device and tracking processing system provided with same, and tracking processing method
CN107707871B (zh) 图像处理设备、摄像设备、图像处理方法和存储介质
JP6912890B2 (ja) 情報処理装置、情報処理方法、システム
CN114616591B (zh) 物体跟踪装置以及物体跟踪方法
JP6654789B2 (ja) 変化点で複数候補を考慮して物体を追跡する装置、プログラム及び方法
CN110072078A (zh) 监控摄像机、监控摄像机的控制方法和存储介质
JP7446060B2 (ja) 情報処理装置、プログラム及び情報処理方法
US10013632B2 (en) Object tracking apparatus, control method therefor and storage medium
US7460705B2 (en) Head-top detecting method, head-top detecting system and a head-top detecting program for a human face
JP2017076288A (ja) 情報処理装置、情報処理方法及びプログラム
JP2020071717A (ja) 情報処理装置、情報処理方法及びプログラム
JP6798609B2 (ja) 映像解析装置、映像解析方法およびプログラム
US9842406B2 (en) System and method for determining colors of foreground, and computer readable recording medium therefor
JP2022123391A (ja) 情報処理装置、情報処理方法、及びプログラム
US20060010582A1 (en) Chin detecting method, chin detecting system and chin detecting program for a chin of a human face
JP5128454B2 (ja) 瞼検出装置、瞼検出方法及びプログラム
JP6555940B2 (ja) 被写体追跡装置、撮像装置、及び被写体追跡装置の制御方法
JP2016152467A (ja) 追尾装置、追尾方法及び追尾プログラム
WO2021153578A1 (en) Information processing system, information processing method, and storage medium for eye gaze based liveness detection
CN115731258A (zh) 运动目标识别的方法以及拍摄设备
JP2022099120A (ja) 被写体追尾装置およびその制御方法
JP2008226176A (ja) 熱目標追跡装置及び熱目標追跡方法
CN113935937B (zh) 图像处理方法、装置、电子设备、介质和系统
JP2024056578A (ja) 画像処理装置、撮影装置、画像処理装置の制御方法及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200114

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201216

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20210103

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210709

R151 Written notification of patent or utility model registration

Ref document number: 6912890

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151