JP2009064162A - Image recognition system - Google Patents
Image recognition system Download PDFInfo
- Publication number
- JP2009064162A JP2009064162A JP2007230356A JP2007230356A JP2009064162A JP 2009064162 A JP2009064162 A JP 2009064162A JP 2007230356 A JP2007230356 A JP 2007230356A JP 2007230356 A JP2007230356 A JP 2007230356A JP 2009064162 A JP2009064162 A JP 2009064162A
- Authority
- JP
- Japan
- Prior art keywords
- image
- learning
- recognizer
- class
- recognition system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 claims abstract description 57
- 230000010354 integration Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 abstract description 5
- 230000000717 retained effect Effects 0.000 abstract description 3
- 238000011156 evaluation Methods 0.000 description 49
- 238000000034 method Methods 0.000 description 32
- 238000000605 extraction Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 16
- 230000000875 corresponding effect Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 238000005457 optimization Methods 0.000 description 8
- 230000002068 genetic effect Effects 0.000 description 6
- 230000035772 mutation Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 4
- 241001377084 Actites Species 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000003710 cerebral cortex Anatomy 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 210000000857 visual cortex Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】獲得された知識をシステム内で系統的に分類して保持・活用し、リアルタイムでの認識処理及び認識精度を向上させる。
【解決手段】教師データが入力されると、データベース管理部7で特徴量を抽出してクラスタリングし、クラスに分類して属性情報を付与して教師データベースDB2に蓄積する。そして、このクラス毎に分類された教師データを用いて、現在用いている認識器を評価・更新することで、蓄積された知識の量が増大しても、多様な環境、対象に合わせて適応的に学習する際の最適化を効率的且つ高速に行うことができ、高精度かつロバストな認識を実現することができる。
【選択図】図1The acquired knowledge is systematically classified and retained and utilized in a system to improve real-time recognition processing and recognition accuracy.
When teacher data is input, the database management unit 7 extracts and clusters the feature amounts, classifies them into classes, adds attribute information, and stores them in the teacher database DB2. And by using the teacher data classified for each class, the current recognizer is evaluated and updated, so that it can be adapted to various environments and targets even if the amount of accumulated knowledge increases. Can be optimized efficiently and at high speed, and highly accurate and robust recognition can be realized.
[Selection] Figure 1
Description
本発明は、獲得された知識をシステム内で系統的に分類して認識処理を行う画像認識システムに関する。 The present invention relates to an image recognition system that performs recognition processing by systematically classifying acquired knowledge in a system.
近年、カメラ等からの画像データを処理し、その画像の中から特定の対象、例えば、環境内を移動する物体やその動き等を抽出する画像認識技術においては、ユーザが使用する環境下で予め開発者が想定していなかった状況での認識精度を確保・向上するため、各種認識器を用いたオンライン向けの学習アルゴリズムが開発されている。 In recent years, in image recognition technology that processes image data from a camera or the like and extracts a specific target, for example, an object moving in the environment or its movement from the image, the image data is extracted in advance under the environment used by the user. Learning algorithms for online use of various recognizers have been developed in order to ensure and improve recognition accuracy in situations not anticipated by developers.
例えば、非特許文献1には、各種画像フィルタを木構造状に組み合わせた認識器を用いる技術が開示されており、木構造状画像フィルタを遺伝的プログラミングにより自動的に最適化することで、より複雑な画像認識が可能となる(木構造状画像変換の自動構築法;ACTIT)。
For example, Non-Patent
また、特許文献1には、動画像中から特定の対象、特に時間的な変化や変位を伴う特定対象の抽出を可能とするため、ACTITを拡張した技術が開示されている。特許文献1の技術では、教師情報を与えることで遺伝的プログラミングにより木構造画像フィルタの処理構造を自動的に獲得でき、ユーザの使用する環境に合わせてシステムが適応し、高精度且つロバストに認識することが可能である。
上述の技術では、過去に学習した画像や認識処理をシステム内で保持し、現在状況に活用することで環境に適応的な認識を行っている。このため、多様な走行環境を学習していくと、過去に学習された認識処理の蓄積量が膨大になり、現在の状態へ活用する際に、膨大な計算を要することになる。 In the above-described technology, images learned in the past and recognition processing are held in the system and are used in the current situation to perform adaptive recognition for the environment. For this reason, when learning various driving environments, the accumulated amount of recognition processing learned in the past becomes enormous, and enormous calculation is required when utilizing in the current state.
従って、多様な環境を学習して一義的に蓄積するのみでは、効率的な活用の障害となるばかりでなく、特徴的なシーンに対して過去に蓄積された膨大な知識(認識処理)の中から平均的な知識を適用してしまう可能性があり、必ずしも有効ではない。 Therefore, learning various environments and storing them unambiguously will not only be an obstacle to efficient utilization, but also a huge amount of knowledge (recognition processing) accumulated in the past for characteristic scenes. May apply average knowledge, and is not always effective.
本発明は上記事情に鑑みてなされたもので、獲得された知識をシステム内で系統的に分類して保持・活用し、リアルタイムでの認識処理及び認識精度を向上させることのできる画像認識システムを提供することを目的としている。 The present invention has been made in view of the above circumstances, and an image recognition system capable of systematically classifying acquired knowledge and maintaining and utilizing the acquired knowledge to improve real-time recognition processing and recognition accuracy. It is intended to provide.
上記目的を達成するため、本発明による画像認識システムは、画像データを認識器を用いて認識処理する画像認識システムであって、学習により獲得される認識処理及び学習に用いる教師情報をクラス毎に分類し、保持するデータベース部と、上記認識器を上記クラス毎の教師データを用いて評価し、上記認識器を適応的に学習更新する学習更新部とを備えることを特徴とする。 In order to achieve the above object, an image recognition system according to the present invention is an image recognition system that recognizes image data using a recognizer, and recognizes recognition processing acquired by learning and teacher information used for learning for each class. A database unit that classifies and holds, and a learning update unit that evaluates the recognizer using the teacher data for each class and adaptively learns and updates the recognizer.
本発明によれば、獲得された知識をシステム内で系統的に分類して保持・活用し、リアルタイムでの認識処理及び認識精度を向上させることができる。 According to the present invention, acquired knowledge can be systematically classified and retained and utilized in the system, and real-time recognition processing and recognition accuracy can be improved.
以下、図面を参照して本発明の実施の形態を説明する。図1〜図13は本発明の実施の一形態に係り、図1は画像認識システムの基本構成図、図2は人抽出問題への適用例を示す説明図、図3は木構造状画像フィルタを示す説明図、図4は認識器出力の統合を示す説明図、図5は学習処理の流れを示す説明図、図6はデータベース管理部の構成を示すブロック図、図7はフィルタリング後の画像特徴量を示す説明図、図8は自己組織化マップによるクラス分けを示す説明図、図9は統合画像の評価を示す説明図、図10は入れ替え選択の説明図、図11は逐次学習の説明図、図12は全体の処理の流れを示す説明図、図13は処理例を示す説明図である。 Embodiments of the present invention will be described below with reference to the drawings. 1 to 13 relate to an embodiment of the present invention, FIG. 1 is a basic configuration diagram of an image recognition system, FIG. 2 is an explanatory diagram showing an application example to a person extraction problem, and FIG. 3 is a tree-structured image filter 4 is an explanatory diagram illustrating integration of recognizer outputs, FIG. 5 is an explanatory diagram illustrating a flow of learning processing, FIG. 6 is a block diagram illustrating a configuration of a database management unit, and FIG. 7 is an image after filtering. FIG. 8 is an explanatory diagram showing classification according to a self-organizing map, FIG. 9 is an explanatory diagram showing evaluation of an integrated image, FIG. 10 is an explanatory diagram of replacement selection, and FIG. 11 is an explanatory diagram of sequential learning. FIG. 12 is an explanatory diagram showing the overall processing flow, and FIG. 13 is an explanatory diagram showing an example of processing.
本発明の画像認識システムは、オンラインで入力される画像データを認識器で処理しながら、現在用いている認識器を環境に合わせて適応的に更新し、多様な環境、対象に対して、より高精度でロバストなシステムを構築するものである。すなわち、認識器は、処理時間やメモリ空間等の関係からその大きさや数に制限があり、また、天候・環境等によっても要求される認識器の性能が変わる。 The image recognition system according to the present invention adaptively updates the recognizer currently used according to the environment while processing the image data input online by the recognizer, and can be more suitable for various environments and objects. It is intended to build a highly accurate and robust system. That is, the size and number of the recognizers are limited due to the relationship between processing time, memory space, and the like, and the required recognizer performance varies depending on the weather and environment.
このような状況においても、過去に入力された画像データの学習結果や認識結果をシステムが保有するデータベースに蓄積し、このデータベースに蓄積した学習データを用いて認識器をオンラインで更新することで、多様な環境、対象に合わせて適応的に学習し、高精度かつロバストな認識を実現することができる。 Even in such a situation, the learning results and recognition results of the image data input in the past are accumulated in the database held by the system, and the recognizer is updated online using the learning data accumulated in this database. It can learn adaptively according to various environments and objects, and can realize highly accurate and robust recognition.
しかし、多様な走行環境を学習していくことで、過去に学習された認識処理の量が膨大になり、現在の状態へ活用する際に最適化の計算が膨大になり、効率的な活用の障害となる可能性がある。このため、本発明の画像認識システムでは、獲得された知識(認識処理)をシステム内で系統的に分類して保持・活用することにより、リアルタイムでの認識処理を効率的に行うことを可能としている。 However, by learning various driving environments, the amount of recognition processing learned in the past becomes enormous, and the optimization calculation becomes enormous when using it in the current state. It can be an obstacle. For this reason, in the image recognition system of the present invention, the acquired knowledge (recognition processing) is systematically classified and retained and utilized in the system, thereby enabling real-time recognition processing to be performed efficiently. Yes.
尚、ここでの画像データとは、カメラ等のイメージセンサで撮像した視覚情報データのみならず、レーザ・レーダ等により物体の2次元的な分布を検出した疑似画像形態のデータも含むものとする。 Note that the image data here includes not only visual information data captured by an image sensor such as a camera but also data in a pseudo image form in which a two-dimensional distribution of an object is detected by a laser radar or the like.
図1に示すように、本形態における画像認識システム1は、入力される画像データを複数の認識器5,…で並列に処理する認識処理部2、各認識器5,…の出力を統合する統合部3、処理の目標となる教師データを用いて認識器を学習的に更新する学習部4、獲得された知識(認識処理)を系統的に分類して保持するデータベース部6を備えて構成されている。
As shown in FIG. 1, the
学習部4の構成について詳細に述べると、学習部4は、個々の認識器を評価する認識器評価部10、全ての認識器(現在使用している認識器及びストックしている認識器)の中から最適な組み合わせを求め、現在使用している認識器の組み合わせを最適な組み合わせに入れ替える入替選択部11、教師データを元に新たに認識器を作成する逐次学習部12を備えて構成されている。
The configuration of the learning unit 4 will be described in detail. The learning unit 4 includes a
また、データベース部6は、詳細には、過去に作成された認識器及び新たに作成する認識器を保存する認識器データベースDB1、過去に入力された教師データ及び新たに入力される教師データを保存する教師データベースDB2、各データDB1,DB2に保存する知識を系統的に分類して管理するデータベース管理部7を備えて構成されている。
Further, the database unit 6 stores, in detail, a recognizer database DB1 for storing a recognizer created in the past and a newly created recognizer, teacher data input in the past, and teacher data newly input. And a
以下では、画像認識システム1を自動車等の車両に搭載して車載カメラからの動画像を処理し、歩行者を抽出する例について説明する。これは、図2に示すように、異なるシーンの動画像Q1,Q2,Q3の中から破線で示す領域QR1,QR2,QR3に写っている人を抽出する人抽出問題への適用例である。
Below, the example which mounts the
入力画像を撮像する車載カメラとしては、例えば、CCDやCMOS等の撮像素子を有するカメラを用い、自動車の車室内のルームミラー付近のフロントガラス内側に車載カメラとして配設する。この車載カメラにより、所定の時間周期(例えば、1/30sec)毎に車両前方が撮像され、ノイズ除去、ゲイン調整、γ補正等のビデオプロセス処理を経て所定の階調(例えば256階調のグレースケール)のデジタル画像に変換された入力画像が認識処理部2に入力される。
As an in-vehicle camera that captures an input image, for example, a camera having an image sensor such as a CCD or a CMOS is used, and is disposed as an in-vehicle camera inside a windshield in the vicinity of a room mirror in a vehicle interior. With this in-vehicle camera, the front of the vehicle is imaged every predetermined time period (for example, 1/30 sec), and after a video process such as noise removal, gain adjustment, γ correction, etc., a predetermined gradation (for example, 256 gradation gray) An input image converted into a digital image of scale) is input to the
尚、認識処理部2には、現在の時刻t及びそれ以前の時刻(t−k)の画像がMフレーム毎にメモリから読み出されて入力される。k及びMの値は適宜設定可能であり、また、他の選択方法により相異なる複数種類の入力画像を選択して入力するように構成することも可能である。
Note that the image at the current time t and the previous time (t−k) is read from the memory and input to the
認識処理部2は、複数の認識器5,…で入力画像を並列に処理し、対象を抽出した処理画像を出力する。本形態では、処理目的が車両前方の風景画像の中からの歩行者の抽出であることから、入力画像の中から歩行者のみを抽出した画像が出力される。
The
また、認識器5として、本形態においては、図3に示すように複数の画像フィルタF1,F2,…,Fn(図においては、n=8)を木構造状に組み合わせた木構造状画像フィルタを採用している。この木構造の各ノードとなる画像フィルタとしては、既存の各種画像フィルタ(例えば、平均値フィルタ、ソベルフィルタ、2値化フィルタ等)や目的に応じて機能が特化された画像フィルタが用いられ、これらの画像フィルタの最適な組合わせと総数が、遺伝的アルゴリズム(GA;Genetic Algorithm)の遺伝子型を構造的な表現(木構造やグラフ構造等)が扱えるように拡張した遺伝的プログラミング(GP;Genetic Programming)によって学習的に獲得される。
As the
尚、認識器5としては、木構造状画像フィルタの他、ニューラルネットワーク、サポートベクタマシン、ファジー等による認識器、ステレオ画像をマッチング処理する認識器、レーザ・レーダによるスキャン画像を処理する認識器等を用いることも可能である。
The
本形態で採用する木構造状画像フィルタによる画像処理の詳細については、本出願人による特開2006−178857号公報に詳述されている。ここでは、その概要について説明する。 Details of image processing by the tree-structured image filter employed in this embodiment are described in detail in Japanese Patent Application Laid-Open No. 2006-178857 by the present applicant. Here, the outline will be described.
本形態における木構造状画像フィルタでは、以下の適応度評価、選択、交叉、突然変異、適応度評価、終了判定の過程を経て木構造の最適化が行われ、GPによって自動的に生成される処理プログラムにより、原画像から目標画像までの最適な変換プロセスが実現される。 In the tree-structured image filter according to this embodiment, the tree structure is optimized through the following fitness evaluation, selection, crossover, mutation, fitness evaluation, and end determination processes, and is automatically generated by the GP. The processing program realizes an optimal conversion process from the original image to the target image.
[適応度評価]
木構造状画像フィルタを個体として、ランダムに生成される初期個体集団の各個体の適応度を評価する。適応度は、各個体から出力される画像の目標画像に対する類似度で定義され、以下の(1)式を用いて算出される。尚、各個体は、最適化されるまでの進化過程において、木構造を構成する終端ノードの数が予め設定した最大値(例えば40)を超えないように制限される。
K=1.0−(1/R)・Σf(ΣpW・│O−T│/ΣpW・V)…(1)
但し、Σf:フレーム数fについての総和
Σp:1フレーム中のピクセルについての総和
K:適応度
R:学習セット数(入力画像及び教師画像の組み合わせを学習セットとして
評価に用いたセット数)
O:出力画像
T:目標画像(最適化された処理で出力すべき画像
W:重み画像(目標とする画像内での領域の重要度を表し、
出力画像と目標画像との距離に応じた重みが画素毎に定義された画像)
V:最大階調度
[Evaluation of fitness]
Using the tree-structured image filter as an individual, the fitness of each individual in the randomly generated initial individual population is evaluated. The fitness is defined by the similarity between the image output from each individual and the target image, and is calculated using the following equation (1). Each individual is limited so that the number of terminal nodes constituting the tree structure does not exceed a preset maximum value (for example, 40) in the evolution process until optimization.
K = 1.0- (1 / R) · Σ f (Σ p W · │O-T│ / Σ p W · V) ... (1)
Where Σ f is the sum of the number of frames f
Σ p : Sum of pixels in one frame
K: Fitness
R: Number of learning sets (a combination of input images and teacher images as learning sets
Number of sets used for evaluation)
O: Output image
T: target image (image to be output by optimized processing)
W: Weighted image (represents the importance of the area in the target image,
An image in which the weight corresponding to the distance between the output image and the target image is defined for each pixel)
V: Maximum gradation
[選 択]
個体の複製のために親集団を選択する過程であり、適応度Kに基づいてルーレット選択や期待値選択、ランキング選択、トーナメント選択等の方法で次世代に残すべき個体の選択及び増殖を行う。本形態の木構造状画像フィルタでは、トーナメント選択により設定数の個体を選択すると共に、適応度Kが最大の個体のエリート保存を同時に行う。
[Choice]
This is a process of selecting a parent group for replication of individuals, and selection and growth of individuals to be left in the next generation are performed based on the fitness K by methods such as roulette selection, expected value selection, ranking selection, tournament selection, and the like. In the tree-structured image filter of this embodiment, a set number of individuals are selected by selecting a tournament, and the elite of the individual having the maximum fitness K is simultaneously stored.
[交叉、突然変異]
親集団から交叉、突然変異によって子集団を生成する過程であり、選択された個体をペアにして、それぞれの交叉点をランダムに選び、一点交叉、多点交叉、一様交叉等により、それぞれ交叉点に応じた部分木同士で交叉させ、子集団を生成する。生成された子集団は、個体毎に所定の割合でノードの変異、挿入、欠失等が行われ、突然変異による子集団が生成される。
[Crossover, mutation]
This is a process of generating a child group by crossover and mutation from a parent group. Pair each selected individual, select each crosspoint at random, and perform crossover by one-point crossover, multipoint crossover, uniform crossover, etc. A child group is generated by crossing subtrees according to points. The generated child population is subjected to node mutation, insertion, deletion, etc. at a predetermined ratio for each individual, and a child population is generated by the mutation.
[適応度評価、終了判定]
突然変異で生成された各個体は前述した適応度が評価され、エリート保存された前世代の適応度が最大の個体を含めて、最適化の処理終了が判定される。この処理の終了は、実行すべき最大世代数まで達したか否か、予め設定した目標適応度に達した個体があるか否か(目的とする個体が得られたか否か)等によって判定される。
[Evaluation of fitness, end judgment]
Each of the individuals generated by the mutation is evaluated for the fitness described above, and the end of the optimization process is determined including the individual with the maximum fitness of the previous generation stored in elite. The end of this process is determined by whether or not the maximum number of generations to be executed has been reached, whether or not there is an individual that has reached a preset target fitness (whether or not the target individual has been obtained), etc. The
世代数が終了世代数に到達していないときには、親選択に戻り、以上の処理過程を繰り返す。一方、世代数が終了世代数に到達したとき、或いは、適応度の最大値が所定の世代数経過してもその間変化しない場合、すなわち、適応度の最大値が停滞した場合には、その世代で最適化を打切り、最大の適応度を有する個体を解として出力する。 When the number of generations has not reached the number of end generations, the process returns to the parent selection and the above processing steps are repeated. On the other hand, when the number of generations reaches the number of end generations, or when the maximum fitness value does not change during the predetermined number of generations, that is, when the maximum fitness value stagnates, To cancel the optimization and output the individual with the maximum fitness as a solution.
以上の木構造の最適化は、各種シーンに対応するため、予めオフラインの事前学習においても実行され、典型的なシーン、例えば、昼、夜、天候、環境(高速道路、幹線道路、市街地等)に特化した認識器として、認識器データベースDB1に後述するクラス毎にストックされる。 The above tree structure optimization is performed in advance in offline pre-learning in order to deal with various scenes. Typical scenes such as daytime, nighttime, weather, environment (highways, highways, urban areas, etc.) As a specialized recognizer, it is stocked for each class to be described later in the recognizer database DB1.
尚、以下では、木構造状画像フィルタを、適宜、「木構造フィルタ列」、或いは単に「木」と記載する。 In the following description, the tree-structured image filter is appropriately described as “tree-structure filter row” or simply “tree”.
画像認識システム1における通常の入力画像の処理は、認識処理部2及び統合部3で実行され、オンラインで常に送られてくる入力画像の中から対象が抽出される。すなわち、入力画像が認識処理部2の複数の木構造フィルタ列で並列に処理されると、この並列出力が統合部3で平均化されて統合され、統合画像が認識結果として出力される。
Normal input image processing in the
例えば、図4に示すように、入力データとなる原画像を4本の木構造フィルタ列TR1,TR2,TR3,TR4で処理する場合、各木構造フィルタ列TR1,TR2,TR3,TR4で処理した複数枚の出力画像に対して、それぞれ、出力重みWi(i=1,2,3,4)が設定され、この出力重みWiで統合された画像が出力される。 For example, as shown in FIG. 4, when an original image serving as input data is processed by four tree structure filter trains TR1, TR2, TR3, TR4, the original image is processed by each tree structure filter train TR1, TR2, TR3, TR4. An output weight Wi (i = 1, 2, 3, 4) is set for each of a plurality of output images, and an image integrated with the output weight Wi is output.
統合画像中のn番目のピクセル値Pnは、以下の(2)式に示すように、各木構造フィルタ列FA,FB,FC,FDからの出力画像の対応するピクセル値PAn,PBn,PCn,PDnを、出力重みW1,W2,W3,W4で加重平均した値で与えられる。尚、出力重みWiについての詳細は、以下の学習部4における認識器の入れ替え選択処理の中で説明する。
Pn=(PAn×W1+PBn×W2+PCn×W3+PDn×W4)/4…(2)
As shown in the following equation (2), the nth pixel value Pn in the integrated image is a pixel value PAn, PBn, PCn, corresponding to the output image from each tree structure filter array FA, FB, FC, FD. PDn is given as a weighted average value with output weights W1, W2, W3, and W4. Details of the output weight Wi will be described in the recognizing device replacement selection process in the learning unit 4 below.
Pn = (PAn × W1 + PBn × W2 + PCn × W3 + PDn × W4) / 4 (2)
一方、学習部4は、オンラインで常に送られている入力画像の中から対象を認識する認識処理部2及び統合部3の処理とは別に、図5に示すように、教師データの入力をトリガとして、現在用いている認識器を環境に合わせて適応的に更新する処理をバックグラウンドにて実行する。尚、図5において、太線で示す矢印線が学習処理の流れを示し、破線の矢印線、細線の矢印線は、それぞれ、学習用画像、認識器の流れを示している。
On the other hand, the learning unit 4 triggers the input of teacher data, as shown in FIG. 5, separately from the processing of the
概略的には、入力データから教師データが作成されると、この教師データがデータベース管理部7でクラス毎に分類され、教師データベースDB2にストックされる。そして、このクラス毎に分類された教師データを用いて、認識器評価部10で、現在用いている木構造フィルタ列、認識器データベースDB1にストックされている木構造フィルタ列がクラス別に評価される。
Schematically, when teacher data is created from input data, the teacher data is classified into classes by the
各クラスにおける木構造フィルタ列の評価結果は入替選択部11で参照され、最適な木構造フィルタ列の組み合わせが決定される。最適な木構造フィルタ列の組み合わせは、認識処理部2を形成する現在の木構造フィルタ列すなわち現在使用している複数の木構造フィルタ列の統合結果よりも良好な評価を得られることが前提であり、絶対的な条件として、現在の木構造フィルタ列の組み合わせよりも評価が悪くならないことが必要である。
The evaluation result of the tree structure filter sequence in each class is referred to by the
使うべき候補の木構造フィルタ列がない場合には、逐次学習部12において、前述した進化的最適化手法であるGPを用いた学習により、新たな木構造フィルタ列が作成される(逐次学習)。そして、逐次学習で順次追加された木構造フィルタ列を含めた組み合わせが反復評価され、最終的に決定された最適な木構造フィルタ列の組み合わせにより、現在の認識処理部2の複数の木構造フィルタ列が部分的或いは全面的に入れ替えられる。
When there is no candidate tree structure filter sequence to be used, the
以下、学習部4の処理についての詳細な説明に先立ち、データベース管理部7による教師データ及び知識データの管理について説明する。
Hereinafter, management of teacher data and knowledge data by the
データベース管理部7は、入力データとして走行中に撮影される画像、車内ネットワークを介して得られる車両操作や車両状態等の情報を用いて、各データベースDB1,DB2内の過去に学習した画像及び学習により得られた認識処理を適切に管理し、入替選択部11及び逐次学習部12を効率的に制御するための情報を送る。
The
前述したように、各データベースDB1,DB2には、多様な走行環境を学習した膨大な学習結果が蓄積されることから、現在の状態へ効率的に活用するには、適切な対策が必要となる。このため、データベース管理部7は、図6に示すように、特徴量抽出部7a、教師マップ作成部7b、属性設定部7c、クラス判別部7dの各機能部を備え、これらの機能部により、獲得された知識(認識処理)をシステム内で系統的に分類し、リアルタイムでの認識処理を効率的に行うことを可能としている。
As described above, each database DB1 and DB2 stores a large amount of learning results obtained by learning various driving environments, so that appropriate measures are required to efficiently utilize the current state. . For this reason, as shown in FIG. 6, the
特徴量抽出部7aは、走行中に経験したリスク情報から作成された教師画像が入力されると、教師画像から特徴量を抽出する。すなわち、教師画像から、エッジ情報、動き情報、色情報(明度、彩度、色相)等の特徴量を抽出し、それらの情報をN次元ベクトルとして保持する。このN次元ベクトルには、画像特徴量以外の車両情報、例えば、車速やヨー角の変化といった情報も含めることができる。
When a teacher image created from risk information experienced during traveling is input, the feature
この場合の特徴量抽出は、以降の認識のためのデータ抽出であるが、一般に、目的とする認識に相関がないデータは認識に悪影響を与える。つまり、この特徴量抽出処理においては、むやみに特徴量を増やすということは得策でなく、逆に、必要な特徴量を用いないことも精度を悪化させる。 The feature amount extraction in this case is data extraction for subsequent recognition. In general, data that is not correlated with the target recognition adversely affects the recognition. That is, in this feature quantity extraction process, it is not a good idea to increase the feature quantity unnecessarily, and conversely, not using a necessary feature quantity also deteriorates accuracy.
そのため、どの特徴量を用いるべきかという特徴量選択が課題として発生し、ここでの特徴量選択を学習的に行うと、以降の認識処理の上位の学習が必要になり、計算量・メモリ容量的にオンラインでの学習には不利である。従って、本形態では、ここでの特徴量抽出部分は固定として扱う例について説明する。 For this reason, feature quantity selection as to which feature quantity should be used occurs as a problem, and if feature quantity selection here is performed in a learning manner, higher learning of the subsequent recognition processing is required, and the calculation amount / memory capacity This is disadvantageous for online learning. Therefore, in this embodiment, an example will be described in which the feature amount extraction portion is treated as fixed.
尚、特徴量選択を学習的に行う場合には、システムの認識率を基準として評価し、各特徴量の組み合わせを最適化すれば良く、これには、組み合わせの全探索、GA等の発見的な探索法等、既存の最適化手法を用いることができる。 In addition, when performing feature selection in a learning manner, it is only necessary to evaluate the recognition rate of the system as a reference and optimize the combination of each feature amount. Existing optimization methods such as simple search methods can be used.
本形態においては、予め設定した種類の特徴量を抽出している。例えば、処理を複数の要素に分け、各要素毎に設定した特徴量を抽出する。複数の要素としては、前処理、特徴量計算、領域設定等を用いことが可能である。以下に示すように、前処理で6種類、特徴量計算で10種類、領域設定で4種類のデータを抽出することができ、それらの組み合わせで計240(6×10×4)次元のデータを抽出することができる。 In the present embodiment, feature types of preset types are extracted. For example, the process is divided into a plurality of elements, and feature amounts set for each element are extracted. As the plurality of elements, preprocessing, feature amount calculation, region setting, and the like can be used. As shown below, 6 types of data can be extracted in the pre-processing, 10 types in the feature amount calculation, and 4 types in the region setting, and a total of 240 (6 × 10 × 4) dimensional data can be obtained by combining them. Can be extracted.
<前処理>
入力画像に対して、ソベル、縦方向ソベル、横方向ソベル、フレーム間差分、輝度、彩度の6種類のフィルタ処理を行うことにより、6次元の特徴量データを抽出することができる。
<Pretreatment>
Six-dimensional feature data can be extracted by performing six types of filter processing on the input image, sobel, vertical sobel, horizontal sobel, inter-frame difference, luminance, and saturation.
<特徴量>
フィルタ処理された画像の画素値に対して、平均、分散、最大値、最小値、横方向重心、縦方向重心、コントラスト、均一性、エントロピー、フラクタル次元の10種類の計算処理を行うことにより、10次元の特徴量データを抽出することができる。
<Feature amount>
By performing 10 types of calculation processing on the pixel values of the filtered image, average, variance, maximum value, minimum value, horizontal centroid, vertical centroid, contrast, uniformity, entropy, fractal dimension, 10-dimensional feature data can be extracted.
<領域>
画像内に領域を設定し、この設定領域の全体、設定領域内の左側の領域、右側の領域、中央の領域の4種類の領域について、4次元の特徴量データを抽出することができる。
<Area>
An area is set in the image, and four-dimensional feature amount data can be extracted for the entire set area, the left area in the set area, the right area, and the central area.
以上の240次元の特徴量は、オンラインシステムの演算性能に応じて、使用する次元を絞るようにしても良い。また、画像以外にも車両データも用いて、画面全体のソベルの平均、分散、画面全体のフレーム間差分の平均、分散、車速、ハンドル角の6次元の特徴量を抽出するようにしても良い。 The above 240-dimensional feature values may be narrowed down according to the calculation performance of the online system. In addition to images, vehicle data may also be used to extract 6-dimensional feature values such as the average and variance of the Sobel for the entire screen, the average of inter-frame differences for the entire screen, the variance, the vehicle speed, and the steering wheel angle. .
また、以上の特徴量抽出処理においては、各特徴量は正規化しているが、理論上の範囲は非効率であるため、事前に各特徴量の分布を評価しておき、その評価結果を元に最大値及び最小値を設定し、0〜1の数値に正規化している。その場合、最大値・最小値を動的に変化させるようにしても良く、例えば、最大値を超える値もしくは最小値を下回る値が入力された場合には、それぞれ範囲を拡大するように最大値・最小値を変更する。逆に、しばらく最小値、最大値付近のデータが入ってこなかった場合は、範囲を狭めるように変更する。 In the above feature quantity extraction process, each feature quantity is normalized, but the theoretical range is inefficient. Therefore, the distribution of each feature quantity is evaluated in advance, and the evaluation result is used as a basis. The maximum value and the minimum value are set to, and normalized to a numerical value of 0 to 1. In that case, the maximum and minimum values may be changed dynamically. For example, when a value exceeding the maximum value or a value below the minimum value is input, the maximum value is expanded so that the range is expanded.・ Change the minimum value. Conversely, if the data near the minimum and maximum values has not been entered for a while, the range is changed to narrow.
また、ここでは基本的な特徴量を用いたが、過去のフレーム情報を用いて動き情報を算出する等、特徴量の時系列的な変動を計算し、その情報を特徴量として用いることもできる。更に、全体としてのリスク認識の精度向上のためには、この特徴量抽出処理に高精度の画像処理を入れることもでき、例えば、過去の歩行者認識結果、道路の白線認識結果、障害物認識結果等を含めて、ここでの抽出データに組み込むようにしても良い。 Although basic feature values are used here, it is also possible to calculate time-series fluctuations of feature values, such as calculating motion information using past frame information, and use the information as feature values. . Furthermore, in order to improve the accuracy of risk recognition as a whole, high-accuracy image processing can be added to this feature amount extraction processing. For example, past pedestrian recognition results, road white line recognition results, obstacle recognition You may make it incorporate in extraction data here including a result.
以上により教師画像から特徴量を抽出すると、教師マップ作成部7bでは、過去に得られた教師画像と併せて特徴量空間をクラスタリングしてクラス毎に分類し、クラス毎に教師画像のマップを作成する。ここでは、大脳皮質の視覚野をモデル化したニューラルネットワークの一種である自己組織化マップ(SOM;Self-Organization Maps)を用いてクラスタリングを行う。
When the feature amount is extracted from the teacher image as described above, the teacher
SOMは、M次元(通常は2次元)に並べられたユニットが、それぞれベクトル値(通常入力との結線の重みと呼ばれる)を持ち、入力に対して勝者ユニットをベクトルの距離を基準として決定するものであり、勝者ユニット及びその周辺のユニットの参照ベクトル値を、入力ベクトルに近づくように更新する。これを繰り返し、全体が入力データの分布を最適に表現できるように学習してゆくことで、代表ベクトルで代表されるデータ密度の高い空間をクラスとして分類する。 In the SOM, units arranged in the M dimension (usually two dimensions) each have a vector value (referred to as a connection weight with the normal input), and the winner unit is determined with respect to the input based on the vector distance. The reference vector values of the winner unit and its surrounding units are updated so as to approach the input vector. By repeating this and learning so that the entire distribution of the input data can be optimally expressed, a space having a high data density represented by a representative vector is classified as a class.
例えば、教師画像をソベルフィルタを用いてフィルタリングした後、画像中の画素値の平均、分散を用いて1枚の画像から1×2種類の画像特徴量を抽出し、図7に示すように、連続する34フレーム分の画像から画像特徴量を抽出した場合、この画像特徴量をSOMによってクラスタリングすると、図8に示すように、A,B,C,Dのクラスに分類することができる。 For example, after filtering a teacher image using a Sobel filter, 1 × 2 types of image feature amounts are extracted from one image using the average and variance of pixel values in the image, and as shown in FIG. When image feature amounts are extracted from 34 consecutive frames of images, if these image feature amounts are clustered by SOM, they can be classified into classes A, B, C, and D as shown in FIG.
このSOMクラスタリングによる教師画像のクラス分けは、確定的なものではなく、多様な走行環境に対応して適応的に更新する必要がある。このため、教師マップ作成部7bは、走行中に自律的にクラスタリングを更新してゆき、環境や時間の推移による特徴量の変化に対して適応的にクラスを分類する。
The classification of teacher images by SOM clustering is not deterministic and needs to be adaptively updated in accordance with various driving environments. For this reason, the teacher
その後、入力教師画像の属するクラスが決定されると、次に、属性設定部7cにおいて、その教師画像に属性情報を付加し、教師データベースDB2へ転送する。教師画像に付加する属性情報は、その教師画像が属するクラス、及び所属するクラスの中心からの距離を主として、その他、特徴量空間上の他のクラスの中心からの距離や、用いた学習セットのクラス属性の平均値等を付加する。
After that, when the class to which the input teacher image belongs is determined, the
尚、SOMによるクラスタリングを確率的なモデルを用いて行う場合には、クラスの中心からの距離に応じた確率表現的な情報を属性情報として付加するようにしても良い。 When clustering by SOM is performed using a probabilistic model, probabilistic information according to the distance from the center of the class may be added as attribute information.
以上によりクラス毎に分類された教師画像により、認識器がクラス毎に入れ替えられ、クラス毎の教師画像に対応した認識器のデータベースが認識器データDB2内に形成される。次に、認識器のリアルタイム入れ替え処理について説明する。 Based on the teacher images classified for each class as described above, the recognizers are replaced for each class, and a database of recognizers corresponding to the teacher images for each class is formed in the recognizer data DB2. Next, the real-time replacement process of the recognizer will be described.
認識器の入れ替えは、入力データがデータベース管理部7へ入力されたときに開始され、先ず、データベース管理部7のクラス判別部7dにおいて、入力データがどのクラスに属するかを判断する。属するクラスの判断は、特徴量抽出部7aによって得られる特徴量空間に入力データを投射し、教師画像のマップから入力データに対応するクラスを決定する。そして、決定されたクラスの属性をもつ認識器を選択し、リアルタイムに入れ替え処理を行う。
The replacement of the recognizer is started when input data is input to the
例えば、入力データの特徴量が前述の図8に示すA,B,C,Dのクラスに対して、クラスAの中心からの距離が最も小さい場合には、入力データのクラスはAであると決定し、認識器データベースDB1にストックされているクラスAの認識器(木構造フィルタ列)を用いて、現在使用している認識器(木構造フィルタ列)の入れ替え処理を行う。 For example, when the feature quantity of the input data is the distance from the center of the class A with respect to the classes A, B, C, and D shown in FIG. 8, the class of the input data is A. The classifier recognizer (tree structure filter string) stocked in the recognizer database DB1 is used to replace the currently used recognizer (tree structure filter string).
この場合、クラスは、必ずしも一つのクラスに限定されることなく、特徴量空間上の距離が近い複数のクラスを対象として学習サンプルを抽出し、複数のシーンで平均的な認識処理を行うようにしても良い。 In this case, the class is not necessarily limited to a single class, and learning samples are extracted for a plurality of classes having a short distance in the feature amount space, and an average recognition process is performed in a plurality of scenes. May be.
認識器入れ替え処理では、先ず、学習部4の認識器評価部10において、現在使用している木構造フィルタ列、及び認識器データベースDB1内の対応するクラスの木構造フィルタ列を個別に評価する。尚、この木構造フィルタ列の評価に際しては、認識器データベースDB1において、対象となるクラス内の木構造フィルタ列の整理を行い、評価の低い木構造フィルタ列を削除するようにしても良い。
In the recognizer replacement process, first, the
具体的には、教師データを用いて個々の木構造フィルタ列の画像評価値を求め、更に、以下の(a)〜(d)の条件を加算的に或いは選択的に考慮して評価を行う。木構造フィルタ列の画像評価値としては、(1)式の適応度Kに準じた値を用いることができる。 Specifically, image evaluation values of individual tree structure filter sequences are obtained using the teacher data, and further, evaluation is performed in consideration of the following conditions (a) to (d) in addition or selectively. . As the image evaluation value of the tree structure filter row, a value according to the fitness K in equation (1) can be used.
(a)寿命
(現在の時間−作られた時間)を木の寿命とし、最近作られた若い木ほど、評価値を高くする。
(b)使用回数
過去に使用された回数が多い木は、評価値を高くする。
(c)サイズ
サイズの小さい木ほど、評価値を高くする。
(d)使用状態
現在使用している木に対しては、過去に使用した木よりも評価を高くする。
(A) Life (current time-time of creation) is the life of the tree, and the younger tree that has been recently made has a higher evaluation value.
(B) Number of uses Trees that have been used in the past have a high evaluation value.
(C) Size The smaller the tree, the higher the evaluation value.
(D) Usage status Evaluation of a currently used tree is higher than that of a tree used in the past.
例えば、画像評価値G、寿命L、使用回数S、使用状態TSを加算的に考慮して木を評価する場合、評価値Fは、以下の(3)式により求めることができる。
F=G×α+L×β+S×γ+TS×δ …(3)
但し、α,β,γ,δ:定数
For example, when evaluating a tree in consideration of the image evaluation value G, the life L, the number of uses S, and the use state TS, the evaluation value F can be obtained by the following equation (3).
F = G × α + L × β + S × γ + TS × δ (3)
Where α, β, γ, δ: constants
求めた評価値は過去に遡り、累積した値が現在の評価値となる。クラス内の全ての木構造フィルタ列の評価が終わり次第、入替選択部11の処理へ移る。
The obtained evaluation value goes back in the past, and the accumulated value becomes the current evaluation value. As soon as the evaluation of all the tree structure filter columns in the class is completed, the processing of the
入替選択部11は、現在用いている木とクラス内にストックされている木とを含めて全ての木の中から、最も評価が高くなるN本の木の組み合わせを求める。組み合わせの数Nが一定数Mに満たない場合には、逐次学習により新しい木を作成して木を追加し、N=Mとなった時点で、常に入力データを処理していた木群を新しい木群に入れ替える。
The
一定数Mは、認識処理部2を形成する木構造フィルタ列の数(常時使用する木構造フィルタ列の数)であり、例えば、認識器データベースDB1内に総計20本の木構造フィルタ列がストックされている場合、組み合わせ数を対象とするクラス内に数によって制限し、常時使用する木として最大10本までの最適な組み合わせを求める。これにより、走行中の状況に対応した高精度な認識処理の構築を行う上で、効率的な入れ替え選択を行うことができる。 The certain number M is the number of tree structure filter columns forming the recognition processing unit 2 (the number of tree structure filter columns used constantly). For example, a total of 20 tree structure filter columns are stocked in the recognizer database DB1. If the number of combinations is limited, the number of combinations is limited by the number of classes, and an optimal combination of up to 10 trees is obtained as a tree that is always used. Accordingly, efficient replacement selection can be performed in constructing a highly accurate recognition process corresponding to a traveling situation.
木群の入れ替えに際しては、現在使用している木の組み合わせによる統合画像の評価結果を基準とする。すなわち、図9に示すように、新しい教師データである原画像を現在の木群TRで並列処理して統合し、その統合画像を目標画像と比較して評価し、この評価結果を基準として、新しい組み合わせの木群を入れ替えるか否かを判断する。 When replacing a group of trees, the evaluation result of the integrated image based on the currently used tree combination is used as a reference. That is, as shown in FIG. 9, the original image, which is new teacher data, is integrated by parallel processing in the current tree group TR, the integrated image is compared with the target image, and the evaluation result is used as a reference. Judge whether to replace the new group of trees.
また、最適な木の組み合わせに際しては、組み合わせた木群の統合画像を用いて評価を行う。例えば、図10に示すように、認識器データベースDB1の対応するクラスに、TR1,TR2,TR3,TR4という木があり、木TR1,TR2,TR3,TR4の中から、木TR1,TR2の2本を選択した場合、木TR1,TR2を用いて作成した統合画像を目標画像と比較して評価値を算出する。算出した評価値が他の組み合わせの評価値よりも高ければ、木TR1,TR2を選択し、低ければ、他の木を選択して同様に評価を行う。このような処理を反復して全ての組み合わせを評価し、評価が最も高い組み合わせを求める。 Further, when an optimum tree is combined, evaluation is performed using an integrated image of the combined tree group. For example, as shown in FIG. 10, the classes corresponding to the recognizer database DB1 include trees TR1, TR2, TR3, TR4, and two trees TR1, TR2 from the trees TR1, TR2, TR3, TR4. Is selected, the integrated image created using the trees TR1 and TR2 is compared with the target image to calculate an evaluation value. If the calculated evaluation value is higher than the evaluation values of other combinations, the trees TR1 and TR2 are selected. If the calculated evaluation value is lower, the other trees are selected and evaluated in the same manner. By repeating such processing, all combinations are evaluated, and the combination having the highest evaluation is obtained.
評価については以下に定義する式を用いて、評価値を算出する。
[評価方法]
評価値は、新しい組み合わせの木群によって作られた統合画像の目標画像に対する類似度で定義され、以下の(1)’式を用いて算出される。
K=1.0−Σf(ΣpW・│O−T│/ΣpW・V)…(1)’
但し、Σf:フレーム数fについての総和
Σp:1フレーム中のピクセルについての総和
K:評価値
O:統合画像
T:目標画像(最適化された処理で出力すべき画像)
W:重み画像(目標とする画像内での領域の重要度を表し、
統合画像と目標画像との距離に応じた重みが画素毎に定義された画像)
V:最大階調度
For evaluation, the evaluation value is calculated using the formula defined below.
[Evaluation methods]
The evaluation value is defined by the similarity between the integrated image created by the new group of trees and the target image, and is calculated using the following equation (1) ′.
K = 1.0-Σ f (Σ p W · │O-T│ / Σ p W · V) ... (1) '
Where Σ f is the sum of the number of frames f
Σ p : Sum of pixels in one frame
K: Evaluation value
O: Integrated image
T: Target image (image to be output by optimized processing)
W: Weighted image (represents the importance of the area in the target image,
An image in which the weight corresponding to the distance between the integrated image and the target image is defined for each pixel)
V: Maximum gradation
尚、どの木を使うかという組み合わせ中で最適なものを選ぶのと同時に、各木の出力の強弱を最適化するようにしても良い。この出力の強弱は、前述の(2)式で説明した出力重みWiを、個々の木の評価値を参照して決定することで最適化することができる。例えば、木TR1の出力画像(のピクセル値)PAnに対する出力重みが[0.3]、木TR2の出力画像(のピクセル値)PBnに対する出力重みが[0.8]とすると、統合画像中のn番目のピクセル値Pnにおいて、以下の(2)’式の値となり、上記と同様に出力重みが付いた統合画像から、評価値を求めることができる。
Pn=(PAn×0.3+PBn×0.8)/2 …(2)’
It should be noted that it is also possible to optimize the strength of the output of each tree at the same time as selecting the optimum one among the combinations of which trees to use. The strength of the output can be optimized by determining the output weight Wi described in the above equation (2) with reference to the evaluation value of each tree. For example, if the output weight for the output image (pixel value) PAn of the tree TR1 is [0.3] and the output weight for the output image (pixel value) PBn of the tree TR2 is [0.8], The n-th pixel value Pn becomes the value of the following expression (2) ′, and the evaluation value can be obtained from the integrated image with the output weight as described above.
Pn = (PAn × 0.3 + PBn × 0.8) / 2 (2) ′
この場合、出力重みと木の組み合わせは、[重みの種類]を[木の本数]で累乗した数となり、例えば、出力重みの候補が[0],[0.3],[0.8],[1.0]の4種類あり、2本の木があるとすると、出力重みと木の組み合わせは計16種類となり、この16種類について評価値を求め、評価値が最大となった組み合わせを求めることになる。尚、実際の出力重みは、0〜1まで0.1刻みの10種類が設定されている。 In this case, the combination of the output weight and the tree is a number obtained by raising the [weight type] to the power of [number of trees]. For example, the output weight candidates are [0], [0.3], [0.8]. , [1.0], and there are two trees, there are a total of 16 combinations of output weights and trees. The evaluation values are obtained for these 16 types, and the combination having the maximum evaluation value is obtained. Will be asked. The actual output weights are set to 10 types in increments of 0.1 from 0 to 1.
入替選択部11において、全ての木構造フィルタ列の組み合わせが評価され、最適な組み合わせとなる木群の数Nが一定数Mに満たない場合、逐次学習部12での逐次学習が実行される。
In the
逐次学習部12は、入替選択部11によって選択された最適な組み合わせのN本の木の出力結果を更に修正し、最適な組み合わせの木の本数Nが一定数Mになるまで、逐次的に学習して木を追加する。
The
学習の流れとしては、例えば、図11に示すように、入替選択部11で選ばれた組み合わせが木TR1,TR2であったとすると、この木TR1,TR2の統合画像と目標画像との差から木TR1,TR2が間違った箇所について重み付けを行い、間違った個所を修正点として重み付けした画像(修正重み画像)を作成する。
As a learning flow, for example, as shown in FIG. 11, if the combination selected by the
例えば、目標画像の値のうち、人であると教師している領域を輝度値255(最重要)、統合画像と目標画像を比べて間違った部分を輝度値127(重要)、それ以外の領域を輝度値1(やや重要)として、修正重み画像を作成する。そして、作成した修正重み画像を用いて新たな木TR3’を一つ作成し、木構造のバッファへ追加する。 For example, among the values of the target image, the luminance value 255 (most important) is an area where the person is instructed to be a person, an incorrect portion is compared with the luminance value 127 (important) when comparing the integrated image and the target image, and the other areas Is set to a luminance value of 1 (somewhat important), and a correction weight image is created. Then, a new tree TR3 'is created using the created correction weight image and added to the tree structure buffer.
次に、木TR1,TR2,TR3’の統合画像を求め、この統合画像の目標画像に対する評価値に基づいて、新しい木TR3’を追加するか否かを判定する。評価値が閾値を超えていれば、図11に示すように、木TR3’を追加して新たな組み合わせの木群TR1,TR2,TR3’とし、評価値が閾値以下の場合には、今回作成された木TR3’は追加せず、学習を逐次的にやり直す。すなわち、同様に、修正重み画像を作成し、更に新たな別の木TR4を作成し、木TR1,TR2,TR4の組み合わせによる統合画像を評価するという具合に、木構造の数Nが一定数Mになるまで木を追加する。 Next, an integrated image of the trees TR1, TR2, and TR3 'is obtained, and it is determined whether or not a new tree TR3' is to be added based on the evaluation value of the integrated image with respect to the target image. If the evaluation value exceeds the threshold value, as shown in FIG. 11, a tree TR3 ′ is added to form a new combination tree group TR1, TR2, TR3 ′. The learned tree TR3 ′ is not added, and learning is sequentially repeated. That is, similarly, a modified weight image is created, another new tree TR4 is created, and an integrated image based on a combination of the trees TR1, TR2, and TR4 is evaluated. Add trees until
実際には、一定数Mを10本と定め、入れ替え選択によって選ばれた木が10本になるまで、木の追加を行う。そして、木の数NがM本になった時点で逐次学習を終了し、常に入力データを処理していた木群を、作成した新しい木群に入れ替える。 In practice, the fixed number M is set to 10 and trees are added until 10 trees are selected by the replacement selection. When the number N of trees reaches M, the sequential learning is terminated, and the tree group that has always processed the input data is replaced with the new tree group that has been created.
尚、新たな木とは、前述したGP(遺伝的プログラミング)により、ストックされている木を初期個体として進化させたもののみならず、現在使用している木を初期個体として進化させたものも含んでおり、計算時に選択される確率をクラス属性情報により設定し、入力された教師画像に該当するシーンを中心に探索を行うことで、効率的な入れ替え選択を行うことができる。 In addition, the new tree is not only a tree that has been evolved as an initial individual by GP (genetic programming), but also a tree that is currently being used as an initial individual. The probability of selection at the time of calculation is set by the class attribute information, and the search is performed centering on the scene corresponding to the input teacher image, so that efficient replacement selection can be performed.
全体の処理の流れを、図12を中心として図13を併用して説明する。図12に示すように、原画像が新しい教師データとして入力されると、認識処理部2で現在の組み合わせのM本の認識器(木構造フィルタ列)によって並列に処理され、それぞれの出力結果が統合される。図13のQ1’が原画像の例であり、この原画像Q1’を認識器で処理して統合した画像がQ2’である。この統合画像Q2’では、現在用いている認識器が新しい教師データに対して人を全く抽出していないことが分かる。
The overall processing flow will be described with reference to FIG. As shown in FIG. 12, when the original image is input as new teacher data, it is processed in parallel by the M combination recognizers (tree structure filter train) of the current combination in the
このとき、データベース管理部7で原画像の属するクラスが決定され、認識器データベースDB1の対応するクラスの認識器及び現在用いている認識器を認識器評価部10で評価した後、入替選択部11で認識器の新たな組み合わせを決定し、認識器をN本選択してその統合画像を評価する。図13のQ3’は、木構造フィルタ列3本の新たな組み合わせを選択した場合の統合画像を示しており、この統合画像Q3’では、人を抽出しているが、背景に誤抽出があることが分かる。
At this time, the class to which the original image belongs is determined by the
この背景の誤抽出は、逐次学習部12での逐次学習により、画像を修正するように学習され、図13のQ4’に示すような統合画像が得られる。図13の統合画像Q4’は、人を抽出しつつ、背景の誤抽出が減っているのが分かる。この逐次学習の繰り返しを経て、最終的に決定される認識器の組み合わせの数がM本に達したとき、現在の認識処理部2が新しい組み合わせの認識器で更新され、背景の誤抽出を排除することができる。
This background erroneous extraction is learned so as to correct the image by the sequential learning in the
以上のように、本実施の形態の画像認識システムは、過去に入力された画像データの学習結果や認識結果をシステム内で系統的に分類してデータベースに蓄積し、このデータベースに蓄積した学習データを用いて認識器をオンラインで更新するようにしている。これにより、蓄積された知識の量が増大しても、多様な環境、対象に合わせて適応的に学習する際の最適化を効率的且つ高速に行うことができ、高精度かつロバストな認識を実現することができる。 As described above, the image recognition system according to the present embodiment systematically classifies learning results and recognition results of image data input in the past in the system, accumulates them in a database, and stores the learning data accumulated in the database. Is used to update the recognizer online. As a result, even when the amount of accumulated knowledge increases, optimization can be performed efficiently and quickly for adaptive learning according to various environments and objects, and highly accurate and robust recognition is possible. Can be realized.
1 画像認識システム
2 認識処理部
3 統合部
4 学習部
5 認識器
6 データベース部
7 データベース管理部
10 認識器評価部
11 入替選択部
12 逐次学習部
DB1 認識器データベース
DB2 教師データベース
DESCRIPTION OF
Claims (7)
学習により獲得される認識処理及び学習に用いる教師情報をクラス毎に分類し、保持するデータベース部と、
上記認識器を上記クラス毎の教師データを用いて評価し、上記認識器を適応的に学習更新する学習更新部と
を備えることを特徴とする画像認識システム。 An image recognition system for recognizing image data using a recognizer,
A database unit that classifies and holds recognition processing acquired by learning and teacher information used for learning for each class;
An image recognition system comprising: a learning update unit that evaluates the recognizer using teacher data for each class and adaptively learns and updates the recognizer.
入力データから得られる複数次元の特徴量空間で学習画像をクラスタリングして上記クラス毎に分類し、分類したクラス毎に属性情報を設定する管理部を備える
ことを特徴とする請求項1記載の画像認識システム。 In the database section above,
The image according to claim 1, further comprising: a management unit that clusters learning images in a multi-dimensional feature amount space obtained from input data, classifies the learning images for each class, and sets attribute information for each classified class. Recognition system.
上記学習更新部に、
上記複数の認識器の統合結果を逐次学習し、新たな認識器を作成する逐次学習部と、
上記逐次学習によって作成された認識器を含めて上記属性情報に基づくクラスの認識器の中から最適な組み合わせを求め、現在使用している複数の認識器と選択的に入れ替える入替選択部と
を備えることを特徴とする請求項2〜6の何れか一に記載の画像認識システム。 A plurality of the above recognizers are provided.
In the learning update part,
A sequential learning unit that sequentially learns the integration results of the plurality of recognizers and creates a new recognizer;
A replacement selection unit that obtains an optimal combination from the class recognizers based on the attribute information including the recognizer created by the sequential learning and selectively replaces a plurality of recognizers currently used. The image recognition system according to any one of claims 2 to 6, wherein
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007230356A JP2009064162A (en) | 2007-09-05 | 2007-09-05 | Image recognition system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007230356A JP2009064162A (en) | 2007-09-05 | 2007-09-05 | Image recognition system |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2009064162A true JP2009064162A (en) | 2009-03-26 |
Family
ID=40558707
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007230356A Pending JP2009064162A (en) | 2007-09-05 | 2007-09-05 | Image recognition system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2009064162A (en) |
Cited By (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010257233A (en) * | 2009-04-24 | 2010-11-11 | Nikon Corp | Genetic processing apparatus, genetic processing method, and genetic processing program |
| JP2011179874A (en) * | 2010-02-26 | 2011-09-15 | East Nippon Expressway Co Ltd | Method for extracting surface cracks of paved road and evaluating surface damage level of paved road |
| WO2014104151A1 (en) * | 2012-12-28 | 2014-07-03 | 富士通株式会社 | Image processing device and characteristic detection method |
| EP2793171A1 (en) | 2013-04-15 | 2014-10-22 | Omron Corporation | Classifier update device, information processing device, and classifier update method |
| JP2016099734A (en) * | 2014-11-19 | 2016-05-30 | キヤノン株式会社 | Image processor, information processing method and program |
| JP2018063553A (en) * | 2016-10-12 | 2018-04-19 | オムロン株式会社 | Identification information assigning system, identification information assigning method, and program thereof |
| JP2018152063A (en) * | 2017-03-14 | 2018-09-27 | オムロン株式会社 | Device, method, and program for evaluating learning results |
| JP2018151989A (en) * | 2017-03-14 | 2018-09-27 | オムロン株式会社 | Learning result comparison device, learning result comparison method, and program for the same |
| JP2018151969A (en) * | 2017-03-14 | 2018-09-27 | オムロン株式会社 | Database device, learning result management method, and program thereof |
| JP2018151974A (en) * | 2017-03-14 | 2018-09-27 | オムロン株式会社 | Learning outcome identification device, learning outcome identification method, and program for the same |
| WO2018215882A1 (en) * | 2017-05-26 | 2018-11-29 | 株式会社半導体エネルギー研究所 | Imaging device and electronic apparatus |
| WO2018229594A1 (en) * | 2017-06-14 | 2018-12-20 | 株式会社半導体エネルギー研究所 | Imaging device and electronic device |
| WO2020184005A1 (en) * | 2019-03-14 | 2020-09-17 | Navier株式会社 | Image processing learning program, image processing program, image processing device, and image processing system |
| CN114424218A (en) * | 2019-10-01 | 2022-04-29 | 株式会社日立高新技术 | Machine learning device |
| JP2023077056A (en) * | 2021-11-24 | 2023-06-05 | 株式会社キーエンス | Appearance inspection device and appearance inspection method |
| WO2025253533A1 (en) * | 2024-06-05 | 2025-12-11 | 株式会社日立ハイテク | Image quality improvement device, image quality improvement method, and image quality improvement program |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005004454A (en) * | 2003-06-11 | 2005-01-06 | National Institute Of Advanced Industrial & Technology | Face image classification registration method |
| JP2005100121A (en) * | 2003-09-25 | 2005-04-14 | Fuji Photo Film Co Ltd | Device and program for determination of type and discrimination condition of feature quantity used in discrimination processing, recording medium with program recorded, and device for selection of data of specific content |
| JP2005284487A (en) * | 2004-03-29 | 2005-10-13 | Sony Corp | Information processing apparatus and method, recording medium, and program |
| JP2006178857A (en) * | 2004-12-24 | 2006-07-06 | Yokohama National Univ | Image processing device |
| JP2007066010A (en) * | 2005-08-31 | 2007-03-15 | Fujifilm Corp | Discriminator learning method, object discriminating apparatus, and program |
-
2007
- 2007-09-05 JP JP2007230356A patent/JP2009064162A/en active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005004454A (en) * | 2003-06-11 | 2005-01-06 | National Institute Of Advanced Industrial & Technology | Face image classification registration method |
| JP2005100121A (en) * | 2003-09-25 | 2005-04-14 | Fuji Photo Film Co Ltd | Device and program for determination of type and discrimination condition of feature quantity used in discrimination processing, recording medium with program recorded, and device for selection of data of specific content |
| JP2005284487A (en) * | 2004-03-29 | 2005-10-13 | Sony Corp | Information processing apparatus and method, recording medium, and program |
| JP2006178857A (en) * | 2004-12-24 | 2006-07-06 | Yokohama National Univ | Image processing device |
| JP2007066010A (en) * | 2005-08-31 | 2007-03-15 | Fujifilm Corp | Discriminator learning method, object discriminating apparatus, and program |
Cited By (45)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010257233A (en) * | 2009-04-24 | 2010-11-11 | Nikon Corp | Genetic processing apparatus, genetic processing method, and genetic processing program |
| JP2011179874A (en) * | 2010-02-26 | 2011-09-15 | East Nippon Expressway Co Ltd | Method for extracting surface cracks of paved road and evaluating surface damage level of paved road |
| WO2014104151A1 (en) * | 2012-12-28 | 2014-07-03 | 富士通株式会社 | Image processing device and characteristic detection method |
| JPWO2014104151A1 (en) * | 2012-12-28 | 2017-01-12 | 富士通株式会社 | Image processing apparatus and feature detection method |
| US9710877B2 (en) | 2012-12-28 | 2017-07-18 | Fujitsu Limited | Image processing apparatus and feature detection method |
| EP2793171A1 (en) | 2013-04-15 | 2014-10-22 | Omron Corporation | Classifier update device, information processing device, and classifier update method |
| US9324008B2 (en) | 2013-04-15 | 2016-04-26 | Omron Corporation | Classifier update device, information processing device, and classifier update method |
| JP2016099734A (en) * | 2014-11-19 | 2016-05-30 | キヤノン株式会社 | Image processor, information processing method and program |
| CN109804388B (en) * | 2016-10-12 | 2023-06-30 | 欧姆龙株式会社 | Identification information distribution system, identification information distribution method and program thereof |
| US10853571B2 (en) | 2016-10-12 | 2020-12-01 | Omron Corporation | Identifying information assignment system, identifying information assignment method, and program therefor |
| JP2018063553A (en) * | 2016-10-12 | 2018-04-19 | オムロン株式会社 | Identification information assigning system, identification information assigning method, and program thereof |
| CN109804388A (en) * | 2016-10-12 | 2019-05-24 | 欧姆龙株式会社 | Identification information distribution system, identification information distribution method and its program |
| JP2018152063A (en) * | 2017-03-14 | 2018-09-27 | オムロン株式会社 | Device, method, and program for evaluating learning results |
| JP2018151989A (en) * | 2017-03-14 | 2018-09-27 | オムロン株式会社 | Learning result comparison device, learning result comparison method, and program for the same |
| JP2018151969A (en) * | 2017-03-14 | 2018-09-27 | オムロン株式会社 | Database device, learning result management method, and program thereof |
| JP2018151974A (en) * | 2017-03-14 | 2018-09-27 | オムロン株式会社 | Learning outcome identification device, learning outcome identification method, and program for the same |
| US11728355B2 (en) | 2017-05-26 | 2023-08-15 | Semiconductor Energy Laboratory Co., Ltd. | Imaging device and electronic device |
| CN110651468A (en) * | 2017-05-26 | 2020-01-03 | 株式会社半导体能源研究所 | Imaging device and electronic apparatus |
| US11101302B2 (en) | 2017-05-26 | 2021-08-24 | Semiconductor Energy Laboratory Co., Ltd. | Imaging device and electronic device |
| JPWO2018215882A1 (en) * | 2017-05-26 | 2020-05-21 | 株式会社半導体エネルギー研究所 | Imaging device and electronic device |
| US12205965B2 (en) | 2017-05-26 | 2025-01-21 | Semiconductor Energy Laboratory Co., Ltd. | Imaging device and electronic device |
| JP2022105562A (en) * | 2017-05-26 | 2022-07-14 | 株式会社半導体エネルギー研究所 | Imaging apparatus and electronic device |
| CN110651468B (en) * | 2017-05-26 | 2022-03-22 | 株式会社半导体能源研究所 | Imaging device and electronic apparatus |
| JP2020156096A (en) * | 2017-05-26 | 2020-09-24 | 株式会社半導体エネルギー研究所 | Imaging device |
| WO2018215882A1 (en) * | 2017-05-26 | 2018-11-29 | 株式会社半導体エネルギー研究所 | Imaging device and electronic apparatus |
| CN115022559A (en) * | 2017-06-14 | 2022-09-06 | 株式会社半导体能源研究所 | Cameras and Electronic Equipment |
| JP2023052966A (en) * | 2017-06-14 | 2023-04-12 | 株式会社半導体エネルギー研究所 | Imaging device and electronic equipment |
| JP7003126B2 (en) | 2017-06-14 | 2022-01-20 | 株式会社半導体エネルギー研究所 | Imaging equipment and electronic equipment |
| JP7689225B2 (en) | 2017-06-14 | 2025-06-05 | 株式会社半導体エネルギー研究所 | Imaging device and electronic device |
| WO2018229594A1 (en) * | 2017-06-14 | 2018-12-20 | 株式会社半導体エネルギー研究所 | Imaging device and electronic device |
| CN110741630B (en) * | 2017-06-14 | 2022-06-21 | 株式会社半导体能源研究所 | Imaging device and electronic apparatus |
| US11388360B2 (en) | 2017-06-14 | 2022-07-12 | Semiconductor Energy Laboratory Co., Ltd. | Imaging device and electronic device |
| JP2024096757A (en) * | 2017-06-14 | 2024-07-17 | 株式会社半導体エネルギー研究所 | Imaging device and electronic device |
| JPWO2018229594A1 (en) * | 2017-06-14 | 2020-07-02 | 株式会社半導体エネルギー研究所 | Imaging device and electronic device |
| US11805335B2 (en) | 2017-06-14 | 2023-10-31 | Semiconductor Energy Laboratory Co., Ltd. | Imaging device and electronic device |
| KR102522350B1 (en) | 2017-06-14 | 2023-04-14 | 가부시키가이샤 한도오따이 에네루기 켄큐쇼 | Imaging devices and electronic devices |
| CN110741630A (en) * | 2017-06-14 | 2020-01-31 | 株式会社半导体能源研究所 | Imaging device and electronic apparatus |
| KR20200019181A (en) * | 2017-06-14 | 2020-02-21 | 가부시키가이샤 한도오따이 에네루기 켄큐쇼 | Imaging Device and Electronic Device |
| CN112868048A (en) * | 2019-03-14 | 2021-05-28 | 纳维株式会社 | Image processing learning program, image processing program, information processing device, and image processing system |
| WO2020184005A1 (en) * | 2019-03-14 | 2020-09-17 | Navier株式会社 | Image processing learning program, image processing program, image processing device, and image processing system |
| JP2020149471A (en) * | 2019-03-14 | 2020-09-17 | Navier株式会社 | Image processing learning program, image processing program, information processing device and image processing system |
| CN114424218A (en) * | 2019-10-01 | 2022-04-29 | 株式会社日立高新技术 | Machine learning device |
| JP2023077056A (en) * | 2021-11-24 | 2023-06-05 | 株式会社キーエンス | Appearance inspection device and appearance inspection method |
| JP7695179B2 (en) | 2021-11-24 | 2025-06-18 | 株式会社キーエンス | Visual inspection device and visual inspection method |
| WO2025253533A1 (en) * | 2024-06-05 | 2025-12-11 | 株式会社日立ハイテク | Image quality improvement device, image quality improvement method, and image quality improvement program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2009064162A (en) | Image recognition system | |
| JP2008204103A (en) | Image recognition system | |
| JP4910090B2 (en) | Image processing system | |
| CN110458844B (en) | A Semantic Segmentation Method for Low Light Scenes | |
| CN108304873B (en) | Target detection method and system based on high-resolution optical satellite remote sensing image | |
| CN108875624B (en) | Face Detection Method Based on Multi-scale Cascaded Densely Connected Neural Networks | |
| US8934666B2 (en) | Method and device for analyzing surrounding objects and/or surrounding scenes, such as for object and scene class segmenting | |
| CN110874578B (en) | Unmanned aerial vehicle visual angle vehicle recognition tracking method based on reinforcement learning | |
| CN114170511B (en) | CASCADE RCNN-based pavement crack disease identification method | |
| CN114612506B (en) | A simple, efficient and anti-interference method for identifying and positioning high-altitude parabolic trajectories | |
| US8270732B2 (en) | Clustering nodes in a self-organizing map using an adaptive resonance theory network | |
| CN112734775A (en) | Image annotation, image semantic segmentation and model training method and device | |
| CN111160481B (en) | Adas target detection method and system based on deep learning | |
| CN110322445A (en) | A kind of semantic segmentation method based on maximization prediction and impairment correlations function between label | |
| JP2008217768A (en) | How to adapt the boost classifier to new samples | |
| CN109117788A (en) | A kind of public transport compartment crowding detection method merging ResNet and LSTM | |
| CN111161307A (en) | Image segmentation method, device, electronic device and storage medium | |
| CN117292283B (en) | A target recognition method based on drones | |
| CN115761240B (en) | Image semantic segmentation method and device for chaotic back propagation graph neural network | |
| Asgarian et al. | Fast drivable area detection for autonomous driving with deep learning | |
| CN113705648B (en) | A data processing method, device and equipment | |
| CN112446417A (en) | Spindle-shaped fruit image segmentation method and system based on multilayer superpixel segmentation | |
| JP7292178B2 (en) | Region dividing device, region dividing method and region dividing program | |
| CN115496936A (en) | A Vegetable Recognition Method Based on Image Cutting and Residual Structure | |
| Li et al. | Advanced multiple linear regression based dark channel prior applied on dehazing image and generating synthetic haze |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100323 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110929 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111115 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120313 |