KR100818289B1

KR100818289B1 - 비디오 영상 트레킹 방법 및 장치

Info

Publication number: KR100818289B1
Application number: KR1020070011122A
Authority: KR
Inventors: 김정배; 문영수; 박규태
Original assignee: 삼성전자주식회사
Priority date: 2007-02-02
Filing date: 2007-02-02
Publication date: 2008-03-31
Anticipated expiration: 2027-02-02
Also published as: US20080187173A1

Abstract

본 발명은 비디오 영상 트레킹 방법 및 장치를 개시한다. 본 발명의 비디오 영상 트레킹 방법은 트레킹 결과와 검출 결과를 병합하고 병합된 결과에 따라 트레킹을 초기화함으로써, 멀티-뷰 얼굴 검출기를 사용하지 않고도 다양한 각도에서 얼굴을 찾아 고속으로 트레킹할 수 있고, 디지털 카메라의 디스플레이 화면 상에서 얼굴 기반의 3A를 구현할 수 있는 장점이 있다. 또한, 본 발명에 따르면 새로운 타겟의 추가 및 기존 타겟의 제거가 용이하고, 기존의 멀티-뷰 타겟 검출기에 비하여 다양한 각도의 타겟을 포착하는데 필요한 계산량과 메모리량이 적게 소요되므로 임베디드 소프트웨어 또는 칩으로 구현하기 적합하다.

Description

비디오 영상 트레킹 방법 및 장치{Video image tracking method and apparatus}

도 1은 본 발명의 일 실시예에 따른 비디오 영상 트레킹 장치를 나타낸 블록도이다.

도 2는 도 1의 비디오 영상 트레킹 장치에서 수행되는 트레킹의 개념도이다.

도 3은 도 1의 비디오 영상 트레킹 장치에서 수행되는 병합의 개념도이다.

도 4는 본 발명의 일 실시예에 따른 비디오 영상 트레킹 방법을 나타낸 흐름도이다.

도 5는 도 4에서 500단계를 세부적으로 나타낸 흐름도이다.

본 발명은 비디오 영상 트레킹 방법 및 장치에 관한 것으로서, 특히 디지털 카메라, 캠코더, 휴대폰에서 얼굴 영상을 이용하여 3A(auto focusing, auto white balance, auto exposure)에 적용될 수 있는 비디오 영상 트레킹 방법 및 장치에 관한 것이다.

영상 처리 기술의 발달로 얼굴을 검출하고 추적하는 다양한 기술이 개발되고 있다. 휴대용 영상 촬영 장치의 경우 크기, 전력 및 컴퓨팅 리소스 등의 제한이 있고 실시간 처리를 요하기 때문에, 휴대용 영상 촬영 장치에 적합한 얼굴 검출 및 추적 시스템을 개발이 필요하다.

비올라(Viola)와 존스(Jones)는 "Robust Real-time Object Detection(2001)" 에서 디스크리트 부스팅 기법(discrete boosting method)을 이용하여 실시간으로 사람의 정면 얼굴의 검출 방법을 개시한 바 있다. 그러나, 정면 얼굴과 측면 얼굴이 다르기 때문에 정면 얼굴 검출기만을 이용해서는 다양한 각도의 얼굴을 찾기 어려운 한계가 있다.

창황(Chang Huang)은 "Vector boosting for rotation invariant multi-view face detection(2005)"에서 벡터 부스팅 기법을 이용하여 다측면의 얼굴을 검출하는 멀티-뷰 검출 시스템을 개시한 바 있으나, 멀티-뷰 검출 시스템의 경우 검출에 소요되는 계산량과 메모리량이 크기 때문에 움직이는 타겟에 대한 검출과 트레킹을 실시간으로 수행하기 어려운 한계가 있다.

도린 코마니슈(Dorin Comaniciu)는 "Kernel-Based Object Tracking(2003)"에서 평균 이동(mean shift) 기반의 트레킹 방법을 개시한 바 있다. 그러나, 이 경우 커널(kernel) 계산 부분이 포함되어 있고, 유사도와 트레킹 위치를 결정하는 계산이 복잡하기 때문에 고속처리가 요구되는 실시간 타겟 검출에 사용되기 어려우며, 새롭게 등장한 타겟을 트레킹하지 못하는 한계가 있었다.

본 발명은 상기 종래 기술의 한계를 극복하기 위하여 안출된 것으로, 본 발 명은 멀티-뷰 검출기를 사용하지 않고도 다양한 각도에서 타겟의 검출 및 트레킹이 가능하고, 새로운 타겟의 추가 및 기존 타겟의 제거가 용이하며, 다양한 각도의 타겟을 포착하고 트레킹하는데 필요한 계산량과 메모리량이 적기 때문에 임베디드 소프트웨어 또는 칩으로 구현할 수 있고 고속의 트레킹이 가능한 비디오 영상 트레킹 방법 및 장치를 제공하는 것을 목적으로 한다.

상기 기술적 과제를 달성하기 위한 본 발명에 따른 비디오 영상 트레킹 방법은 미리 결정된 타겟 모델에 대한 트레킹을 수행하여, 상기 트레킹이 수행된 프레임의 타겟 후보를 결정하는 단계; 상기 트레킹이 수행된 프레임에서 또는 상기 프레임의 다음 프레임에서 타겟 검출을 수행하는 단계; 및 상기 결정된 타겟 후보 또는 상기 검출된 타겟을 이용하여 상기 타겟 모델을 갱신하고, 트레킹을 초기화하는 단계를 포함한다.

본 발명에서 상기 트레킹은 상기 미리 결정된 타겟 모델의 위치에 의해 특정되는 타겟 후보의 통계적 분포 특성과 상기 미리 결정된 타겟 모델의 통계적 분포 특성 간의 유사도 또는 거리를 계산하고, 상기 통계적 분포 특성을 이용하여 상기 위치를 보정한 후, 상기 보정된 위치에 따른 새로운 타겟 후보의 통계적 분포 특성과 상기 미리 결정된 타겟 모델의 통계적 분포 특성 간의 유사도 또는 거리를 이용하여 트레킹을 수행하는 것이 바람직하다. 또한, 상기 트레킹 초기화 단계는 상기 트레킹을 통해 결정된 타겟 후보와 상기 검출된 타겟 영상의 겹쳐진 영역이 소정의 기준값 보다 큰 경우 상기 타겟 후보를 삭제하고, 상기 검출된 타겟으로 타겟 모델 을 갱신함이 바람직하다.

상기 다른 기술적 과제를 달성하기 위한 본 발명에 따른 비디오 영상 트레킹 장치는 타겟 모델에 대한 트레킹을 통해 각각의 프레임에 따른 타겟 후보를 결정하는 트레킹부; 소정의 프레임 간격으로 타겟 영상을 검출하는 검출부; 및 상기 트레킹부에서 결정된 타겟 후보와 상기 검출부에서 검출된 타겟 영상을 이용하여 상기 타겟 모델을 갱신하고, 트레킹을 초기화하는 제어부를 포함하는 것을 특징으로 한다.

본 발명에서 트레킹부는 타겟 모델의 통계적 분포 특성과 타겟 후보의 통계적 분포 특성간의 유사도 또는 거리를 고려하여 트레킹을 하고자 하는 프레임의 타겟 후보를 특정하는 트레킹 위치 결정부와 상기 결정된 타겟 후보의 통계적 분포 특성에 대한 히스토그램을 추출하는 히스토그램 추출부를 포함하는 것이 바람직하다. 또한, 본 발명에서 제어부는 트레킹부에 의한 트레킹 프로세스와 상기 검출부에 의한 검출 프로세스를 관리하는 스캐줄러; 및 상기 결정된 타겟 후보와 상기 검출된 타겟 영상을 병합하여 타겟 모델을 갱신하는 병합부를 포함하는 것이 바람직하다.

상기 다른 기술적 과제를 달성하기 위하여, 본 발명은 상기 비디오 영상 트레킹 방법이 컴퓨터 상에서 수행될 수 있는 컴퓨터에서 판독 가능한 기록 매체를 제공한다.

이하에서는 본 발명의 도면과 실시예를 참조하여 본 발명의 비디오 영상 트레킹 장치에 대하여 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 비디오 영상 트레킹 장치를 나타낸 블록도이다. 본 실시예에서 비디오 영상 트레킹 장치는 트레킹부(10), 검출부(20) 및 제어부(30)를 포함한다.

트레킹부(tracking unit, 10)는 미리 결정된 타겟 모델(target model)에 대한 트레킹을 통해 현재 프레임(n번째 프레임)에 따른 타겟 후보(target candidate)를 결정한다. 현재 프레임에 대한 최종적인 타겟 후보를 결정하기까지, 트레킹 프로세스는 현재 프레임에 대하여 소정의 횟수 만큼 반복된다.

본 실시예에서 트레킹부(10)가 추적하는 것은 미리 결정된 타겟 모델로서, 상기 미리 결정된 타겟 모델은 현재 프레임에 선행하는 프레임에서 트레킹 초기화에 따라 결정된 서브 영상 또는 그 히스토그램을 의미한다. 여기에서 트레킹 초기화는 최초로 타겟 영상이 검출되는 프레임을 포함하여, 일정한 프레임 간격으로 수행된다. 최초 타겟 영상 검출에 의한 초기화의 경우 검출 결과만으로 트레킹을 초기화한다. 그러나, 그 이후의 초기화의 경우 트레킹 결과와 검출 결과를 병합하고, 병합된 결과에 따라 트레킹을 초기화한다. 예를 들어, 타겟 모델은 얼굴 검출에 따라 검출된 영상 즉 얼굴 영역을 포함하는 일정 영역을 갖는 영상이며, 검출된 얼굴 영상을 타겟 모델로 결정할 수 있다. 또한, 본 실시예에서 타겟 후보는 현재 프레임에 대하여 반복 수행되는 각각의 트레킹에 따른 결과이며, 타겟 후보는 소정의 위치와 크기에 의하여 특정되는 영상이다.

트레킹부(10)는 세부 구성으로서 트레킹 위치 결정부(11), 히스토그램 추출부(12), 비교부(13), 가중치 조절부(14) 및 스캐일 조절부(15)를 포함한다.

트레킹 위치 결정부(11)는 프레임 단위의 영상 정보에서 타겟 후보(target candidate)를 특정하기 위한 서브 윈도우의 위치를 결정한다. 프레임 단위의 영상 정보는 영상 정보 수신부(31)로부터 수신된다. 본 실시예에서 서브 윈도우(sub-window)는 중심 위치(y)와 반폭(h)에 의해 특정되므로, 서브 윈도우가 특정되면 프레임 전체의 영상에서 일 부분을 차지하는 타겟 모델도 특정된다.

타겟의 움직임이 있거나, 비디오 영상 촬영 장치에 움직임이 있을 경우 타겟 후보를 특정하는 서브 윈도우의 크기와 위치는 각각의 프레임에 따라 달라진다. 트레킹 위치 결정부(11)는 매회의 트레킹이 수행될 때마다 히스토그램 추출부(12), 비교부(13), 가중치 조절부(14), 스캐일 조절부(15) 및 스캐줄러(32)로부터 전달 받은 입력을 이용하여 매 프레임 마다 서브 윈도우를 특정한다. 예를 들어, 비디오 영상의 촬영 모드가 시작된 후에 트레킹 위치 결정부(11)는 초기화된 얼굴 모델을 기반으로, 트레킹이 초기화된 프레임 이후의 프레임에서 상기 얼굴 모델에 대한 트레킹을 수행하여 얼굴 후보를 결정한다. 여기서 초기화된 얼굴 모델은 1번째 프레임 또는 그 이후의 프레임으로써 최초로 검출된 얼굴 영상 또는 얼굴 영상의 색상 히스토그램을 의미한다. 얼굴 모델의 검출은 검출부(20)에 의하여 수행되며, 검출된 결과는 트레킹 초기화에 의하여 스케줄러(32)에 저장된다. 트레킹 위치 결정부(11)는 검출된 얼굴 모델의 위치 정보, 히스토그램을 이용하여, 현재 프레임의 타겟 즉 얼굴의 위치를 추적한다.

트레킹 프로세스가 적어도 1회 수행되면, 트레킹 위치 결정부(11)는 비교부(13) 또는 가중치 조절부(14)의 계산 결과를 이용하여 현재 프레임의 타겟 후보 를 특정하기 위한 중심 위치(y)와 반폭(h)을 계산하고, 상기 중심 위치와 반폭에 의하여 특정되는 영상을 현재 프레임의 타겟 후보로 결정한다.

히스토그램 추출부(12)는 트레킹 위치 결정부(11)에 의하여 특정된 타겟 후보의 통계적 분포 특성을 반영하는 히스토그램을 추출한다. 또한, 히스토그램 추출부(12)는 스케줄러(32)에 의하여 초기화된 타겟 모델의 통계적 분포 특성을 반영하는 히스토그램도 추출한다. 본 실시예에서 히스토그램의 예로는 색상 히스토그램(color histogram) 또는 에지 히스토그램(edge histogram)이 있다. 히스토그램 추출부(12)는 타겟 모델의 색상 히스토그램을 하기 수학식1에 따라 계산한다.

[수학식1]

여기에서, x_i는 타겟 모델을 이루는 픽셀이고, b(x_i)는 각각의 픽셀에 따른 빈(bin) 값을 나타내며, u는 픽셀의 색상을 나타내며, q_u는 픽셀이 갖는 각각의 색상(u)에 따른 각각의 색상 히스토그램을 의미한다. {q_u}는 타겟 모델에 속하는 다수의 픽셀 들 중 색상(u)을 갖는 픽셀의 개수의 집합을 나타낸다. {q_u}는 타겟 모델의 특징을 반영하는 중요한 통계적 분포 특성을 반영하며, 하기 수학식2를 통해 간략화된 형태로 계산될 수 있다.

[수학식2]

여기에서, q_u는 타겟 모델의 히스토그램이고, r>>4, g>>4, b>>4 각각은 r, g, b를 왼쪽 쉬프트시키는 것을 의미하며, m은 16×16×16이다. 더욱 상세히 설명하면, q_u는 r, g, b 각각을 2⁴으로 나누고, 그에 따른 히스토그램을 의미한다. 픽셀의 색상은 일반적으로 0~255 값을 갖는 rgb로 나타내는데 이 경우 계산의 복잡성(complexity)가 증가하고 프로세싱 시간이 길어지는 문제가 있다. 그러나, 본 실시예에서와 같이 rgb 값의 분산도를 낮추고, rgb 대신 새로운 색상 변수(u)를 이용하여 픽셀의 색상을 나타낼 경우 상기 문제를 해결할 수 있다. 예를 들어, 본 실시예에서는 r, g, b 각각을 2⁴으로 나눈 후 소정의 가중치에 따라 합산하여 rgb 3차원으로 표현되는 색상을 1차원의 값을 갖는 색상(u)으로 표현함으로써 계산의 복잡성을 낮추는 것이 가능하다. 또한, 타겟 모델에 따른 pdf(probability density function)를 q_u로 이용할 수 있다. pdf를 q_u로 이용할 경우

을 만족한다. 또한, 타겟 모델과 마찬가지로 타겟 후보의 히스토그램은 하기 수학식3에 따라 계산할 수 있다.

[수학식3]

여기에서, {p_u(y₀, h₀)}는 색상값이 u이고, 중심 좌표가 y₀이며, 반폭이 h₀인 타겟 후보의 히스토그램이다.

비교부(13)는 히스토그램의 유사도를 계산하고, 계산된 유사도를 비교한다. 특히, 비교부(13)는 현재 프레임의 제1 타겟 후보와 제2 타겟 후보 중 어떤 타겟 후보가 미리 결정된 타겟 모델과 유사한지를 비교한다. 여기에서 제1 타겟 후보는 현재 프레임(n번째 프레임)에서의 첫 번째 트레킹에 따른 결과이고, 제2 타겟 후보는 현재 프레임에서 두 번째 트레킹에 따른 결과를 의미한다.

비교부(13)는 제1 타겟 후보의 색상 히스토그램과 타겟 모델의 색상 히스토그램 간의 제1 유사도를 계산하고, 제2 타겟 후보의 색상 히스토그램과 타겟 모델의 색상 히스토그램 간의 제2 유사도를 계산하고, 상기 계산된 유사도의 비교를 통해 트레킹 적중률을 높일 수 있는 타겟 후보를 현재 프레임의 타겟 후보로 선택한다.

예를 들어, 제2 타겟 후보와 타겟 모델의 제1 유사도가 제2 유사도 보다 큰 경우, 제1 타겟 후보는 삭제되며 제2 타겟 후보가 현재 프레임에 따른 타겟 후보로 결정된다. 물론, 현재 프레임에서 트레킹이 더욱 수행될 경우, 추가적인 제3 타겟 후보와의 비교를 통해서 타겟 모델과 상대적으로 유사한 타겟 후보가 현재 프레임의 최종적인 타겟 후보로 결정된다. 만약, 제1 타겟 후보와 타겟 모델의 제1 유사도가 제2 유사도 보다 더 큰 경우, 현재 프레임의 제2 타겟 후보는 삭제되고 제1 타겟 후보가 현재 프레임의 타겟 후보로 결정된다. 이때 추가적인 타겟 후보를 찾기 위한 트레킹은 비효율적이거나 불필요한 것이므로 현재 프레임에 대한 트레킹은 더 이상 진행되지 않는다.

비교부(13)에 의한 비교 결과 현재 프레임에서의 최종적인 트레킹을 통해 결 정된 타겟 후보와 타겟 모델과의 유사도가 소정의 값 보다 작은 경우, 현재의 해당 타겟 모델은 삭제되며 이후의 프레임에서 해당 타겟 모델에 대한 트레킹은 더 이상 수행되지 않는다. 예를 들어, 이전 프레임에서는 존재하던 사람 들 중 어느 한 사람이 현재 프레임에서 사라졌을 경우, 사라진 사람의 얼굴 영상에 대한 트레킹은 더 이상 수행되지 않는다.

상기에서는 히스토그램간의 유사도를 기준으로 타겟 후보를 결정하는 예를 설명하였으나, 히스토그램 간의 거리를 이용함으로써 타겟 후보를 결정할 수 있음은 물론이다. 하기 수학식4의 L1 거리(L1 distance) 함수를 통해 히스토그램 간의 거리를 계산할 수 있다.

[수학식4]

여기에서, d(y)는 타겟 모델과 타겟 후보의 거리이고, N_q는 타겟 모델의 픽셀 개수이며, N_p(y)는 타겟 후보의 픽셀 개수이고, P_u(y)는 타겟 후보의 색상 히스토그램이며, q_u는 타겟 모델의 색상 히스토그램이다.

가중치 계산부(14)는 비교부(13)에 의한 비교 결과를 이용하여 타겟 후보에 속하는 모든 픽셀의 가중치를 계산한다. 트레킹 위치 결정부(11)는 상기 조절된 가중치를 이용하여 하기 수학식 5에 따라 중심 위치(y₀)로부터 새로운 중심 위치(y₁)을 계산한다.

[수학식5]

여기에서, n_ho는 트레킹 후보 모델의 총 픽셀 수이고, y₁은 가중치 w_i에 따라 보정된 트레킹 후보의 중심 좌표이다. 상기 가중치 w_i를 어떻게 정의하는지 여부에 트레킹 후보의 중심 좌표가 보정되는 정도가 조절될 수 있으며, 가중치를 결정하는 방법에 특별한 제한이 있는 것은 아니다. 예를 들어, 얼굴 트레킹을 할 경우 히스토그램상 피부색에 해당하는 u값의 빈도가 높은 영역에 가중치를 높게 부여하여, 중심 위치(y₀)가 피부색의 빈도가 높은 위치(y₁)로 이동할 수 있도록 가중치를 부여할 수 있다. 더욱 구체적인 예로써, 가중치 계산부(14)는 하기 수학식6에 따라 가중치를 계산한다.

[수학식6]

여기에서, w_i는 각 픽셀에 따른 가중치이고, Log()함수는 log₂() 값을 반올림하는 함수이다. i는 픽셀의 좌표를 나타내며 반폭(h₀)값에 의하여 특정되며, 1<<Si는 2^si를 의미한다. 상기 수학식6은 중심 위치(y)와 픽셀의 좌표(i)의 색상 값(u)가 갖는 p_u와 q_u(y)를 이용하여 상기 가중치 w_i를 구하는 일 예이다. 특히, 상기 수학식6에 의할 경우 상기 가중치(w_i)는 정수값을 가지며 비교적 간단한 연산을 통해 구할 수 있기 때문에, 임베디드 시스템에서의 가중치 계산 방법으로 사용하기에 적합하다.

스캐일 조절부(15)는 타겟 후보의 스캐일을 조절한다. 비디오 영상 트레킹 장치와 사람의 거리가 달라질 경우 얼굴 추적의 적중률을 높이기 위해서는 스캐일의 조절이 필요하다. 스캐일 조절부(15)는 반폭(h)의 조절을 통해서 스캐일을 조절한다. 스캐일을 조절하는 예로는, 원래의 반폭을 h₀라 할 때, h₁ = 1.1h₀, h₂ = 0.90h₀ 와 같이 서로 다른 반폭(h₁, h₂)을 이용하여 타겟 후보의 스캐일을 조절할 수 있다.

도 2에서 a영상(이전 프레임의 영상)과 b영상(현재 프레임의 영상)은 인접하는 두 개의 프레임에 따른 비디오 영상으로서, 특히 트레킹 기능을 갖는 디지털 카메라 또는 캠코더 등의 영상 획득 장치를 통해 획득되는 영상이다.

a영상에서 y₀는 이전 프레임에 대한 최종 트레킹을 통해 결정된 타겟 후보의 중심 위치이고, h₀는 타겟 후보의 반폭을 의미한다. a영상에서 서브 윈도우에 의하여 특정되는 영역의 영상이 타겟 후보이다. 그러나, b영상은 타겟 모델에 대한 트레킹이 미완료된 상태의 영상을 나타낸다. b영상을 현재 프레임의 영상이라 할 때, b영상에서 타겟 후보를 결정하기 위한 트레킹은 제한된 범위 내에서 복수회 수행된다.

b영상에서 수행되는 최초의 트레킹은 이전 프레임인 a영상에서 결정된 타겟 후보와 동일한 서브 윈도우의 조건 즉 (y₀, h₀)을 기준으로 수행된다. 이러한 서브 윈도우를 통해 결정된 타겟 후보로부터 추출된 색상 히스토그램과 미리 결정된 타겟 모델로부터 추출된 색상 히스토그램을 이용하여 상기 수학식5, 6에 따라 가중치(w_i)와 새로운 중심 좌표(y₁)를 계산할 수 있다.

비교부(13)는 서브 윈도우 조건 (y₀, h₀)에 따른 제1 타겟 후보의 색상 히스토그램과 타겟 모델의 색상 히스토그램 간의 제1 유사도를 계산하고, 새로운 윈도우 조건 (y₁, h₀)에 따른 제2 타겟 후보의 색상 히스토그램과 타겟 모델의 색상 히스토그램 간의 제2 유사도를 계산하고, 제1 유사도와 제2 유사도를 비교하여 타겟 모델과 더욱 유사한 타겟 후보를 b영상의 타겟 후보로 선택한다. 도 2는 (y₀, h₀) 대신 (y₁, h₀)에 따른 타겟 후보가 선택된 예를 보여준다. 가중치 계산부(14)는 상기 선택된 타겟 후보로부터 추출된 색상 히스토그램과 타겟 모델로부터 추출된 색상 히스토그램 값을 이용하여 새로운 가중치를 계산하고, 트레킹 위치 결정부(11)는 상기 새로운 가중치와 현재 서브 윈도우의 중심 위치 y₁를 이용하여 새로운 서브 윈도우의 중심 위치 y₂를 계산한다. 트레킹 위치 결정부(11)는 상기 새로운 서브 윈 도우(y₂, h₀)에 따른 제3 타겟 후보와 (y₁, h₀)에 따른 제2 타겟 후보 중 미리 결정된 타겟 모델에 더욱 유사한 것을 선택한다. 현재 프레임에 대한 트레킹이 종료된 경우 최종적으로 선택된 타겟 후보와 타겟 모델의 유사도가 소정의 기준값 보다 큰 경우 해당 타겟 모델에 대한 트레킹은 유지되지만, 소정의 기준값 보다 작은 경우 해당 타겟 모델에 대한 트레킹은 더 이상 수행되지 않는다.

검출부(20)는 비디오 영상으로부터 타겟 영상을 검출한다. 타겟 영상의 검출에 소요되는 시간을 고려할 때, 타겟 영상의 검출은 소정의 프레임 간격(예를 들어, 15프레임 간격)으로 수행되는 것이 바람직하다.

제어부(30)는 트레킹 위치 결정부(10)에 따라 특정되는 타겟 후보와 검출부(20)에서 검출된 타겟 영상을 병합하여 타겟 모델을 갱신한다. 또한, 제어부(30)는 현재의 프레임에 대하여 트레킹을 수행할 것인지 아니면 검출을 수행할 것인지를 제어하며, 또한 현재 프레임에 대하여 트레킹을 종료하고 다음 프레임에 대한 트레킹을 수행할 것인지 여부를 제어한다.

제어부(30)는 영상 정보 수신부(31), 스캐줄러(32) 및 병합부(33)를 포함하여 구성된다. 영상 정보 수신부(31)는 영상 획득 수단을 통해 획득된 영상 정보를 수신한다. 스캐줄러(32)는 현재의 프레임에 대하여 트레킹을 수행할 것인지 또는 검출을 수행할 것인지를 관리한다. 또한, 스캐줄러(32)는 병합부(33)에 의해 병합된 결과에 따라 트레킹을 초기화한다. 트레킹 초기화에 따라 타겟 모델을 갱신된다. 즉 트레킹 초기화에 의하여 타겟 모델의 위치 정보(y₀, h₀)와 그에 따른 히스토 그램이 갱신된다. 병합부(33)는 트레킹부(10)에 따라 결정된 타겟 후보와 검출부(20)에 따라 검출된 타겟 영상을 병합한다.

도 3에서 트레킹 결과 영상에는 트레킹부(10)에 의하여 타겟 후보의 위치를 특정하는 정사각형 형태의 서브 윈도우가 도시되어 있다. 트레킹 프로세스는 각각의 프레임 별로 수행되고, 트레킹은 미리 결정된 타겟 모델을 기반으로 하기 때문에 트레킹 만으로는 선행 프레임에 없던 새로운 타겟이 발생할 경우 트레킹을 하지 못하는 한계가 있다. 또한, 검출 프로세스는 정면 얼굴을 비교적 정확히 검출할 수 있지만 측면 얼굴은 검출하기 어렵고, 또한 측면 얼굴을 검출하는데 프로세싱 시간이 많이 소요되므로 매 프레임 별로 검출을 수행하기 어렵다는 문제가 있다. 본 발명에서 검출 결과와 트레킹 결과의 병합은 상기 트레킹에 따른 한계를 해결하기 위한 것이다.

도 3에서 검출 결과 영상은 현재의 프레임에서 정면 얼굴을 검출하는 정면 얼굴 검출기를 이용하여 타겟을 검출한 결과를 보여준다. 트레킹 결과 영상의 경우 4명 모두 트레킹 되었으나, 검출 결과 영상의 경우 가운데 2명의 얼굴은 검출되지 않았다. 정면 얼굴 뿐만 아니라 측면 얼굴도 검출할 수 있는 멀티-뷰 얼굴 검출기를 사용할 경우 가운데 2명의 얼굴도 검출할 수 있지만, 멀티-뷰 얼굴 검출기의 경우 많은 프로세싱 시간과 메모리를 필요로 하여 실시간 동작이 어렵다는 문제가 있다. 트레킹과 정면 얼굴 검출기를 통한 검출을 함께 수행하고 각각의 결과를 병합할 경우 측면 얼굴도 포착할 수 있고 트레킹에 따른 상술한 문제를 극복할 수 있다 는 장점이 있다.

도 3의 트레킹 결과 영상에서 박스 처리된 4개의 영상은 트레킹을 통해 결정된 현재 프레임의 타겟 후보 들이고, 검출 결과 영상에서 박스 처리된 2개의 영상은 검출된 타겟 영상 들이다. 가장 우측에 있는 사람의 경우 타겟 후보와 타겟 영상은 일부 중복된 영역을 갖는데, 상기 중복 영역이 소정의 기준값 보다 큰 경우 타겟 후보는 제거된다. 병합 결과 영상은 병합 결과 검출되지 않은 가운데 2명에 대한 기존의 트레킹 결과가 유지되고, 양쪽 가장자리에 있는 2명의 경우 트레킹 결과가 삭제되는 것을 보여준다. 상기 병합 결과 영상에 따라 트레킹은 초기화되고, 트레킹 초기화에 의하여 특정된 타겟 모델과 서브 윈도우에 따라 이후 프레임의 트레킹은 수행된다. 즉, 가운데 2명의 경우 기존의 타겟 모델이 유지되고, 트레킹 결과인 중심 위치와 반폭(y, h)에 따라 이후 프레임에 트레킹이 수행된다. 도 3은 양쪽 가장자리에 있는 2명의 경우 기존의 트레킹된 얼굴은 삭제되었으며, 현재 검출된 영상에 따른 새로운 타겟 모델이 결정된 예를 보여준다.

상기 타겟 모델 각각의 중심 위치 정보 및 스캐일 정보는 스케줄러(32)를 통해 트레킹 위치 결정부(11)에 전달된다. 트레킹 위치 결정부(11)는 타겟 모델에 대한 트레킹을 수행하되, 이전 프레임에서의 서브 윈도우를 이용하여 트레킹을 수행한다. 상술한 트레킹, 검출 그리고 병합의 프로세스는 촬영 모드가 종료될 때까지 계속 반복된다. 특정인에 대한 타겟 후보와 타겟 모델의 중복 영역이 소정의 기준값 보다 작은 경우 타겟 후보와 타겟 모델을 모두 유지되며, 다음 프레임에서의 트레킹은 상기 각각의 모델에 대하여 수행된다. 즉, 1인의 얼굴 영상에서 추출된 서 로 다른 2개의 타겟 모델에 따른 트레킹이 수행된다. 그러나, 트레킹을 반복됨에 따라 분리된 2개의 모델은 통합되며, 1인에 대한 타겟 모델은 결국 1개 만이 남게 된다.

이하에서는 본 발명의 도면과 실시예를 참조하여 본 발명의 비디오 영상 트레킹 방법에 대하여 상세히 설명한다.

도 4는 본 발명의 일 실시예에 따른 비디오 영상 트레킹 방법에 대한 흐름도이다. 본 발명에 따른 비디오 영상 트레킹 방법은 비디오 영상 트레킹 장치에서 시계열적으로 처리되는 다음 단계 들을 포함한다.

촬영 모드가 개시되면, 100단계에서 검출부(20)는 영상 정보 수신부(31)를 통해 수신된 1번째 프레임의 비디오 영상으로부터 타겟 영상을 검출한다. 타겟 영상의 예로는 얼굴 영상이 있으며, 본 실시예에서는 얼굴 영상을 위주로 설명한다.

200단계에서 스캐줄러(32)는 타겟 영상이 검출되었는지 여부를 판단하고, 만약 타겟 영상이 검출되지 않은 경우, 검출부(20)는 다음 프레임의 비디오 영상에서 타겟 영상을 검출하는 프로세스를 수행한다.

300단계에서 스케줄러(32)는 검출부(20)에 의하여 타겟 영상이 검출된 경우 검출된 타겟 영상을 타겟 모델로 결정하고, 트레킹을 초기화한다. 트레킹을 초기화한다는 것은 서브 윈도우의 중심 좌표(y₀) 및 반폭(h₀)을 특정하는 것을 의미한다. 만약, 새로운 타겟이 등장한 경우 트레킹의 초기화는 새로운 타겟으로부터 히스토그램을 추출하는 것을 포함한다. 히스토그램 추출부(12)는 타겟 모델의 색상 히스 토그램 또는 에지 히스토그램을 추출하여 저장한다.

400단계에서 영상 정보 수신부(31)는 매 프레임에 따른 비디오 영상 정보를 불러온다. count++는 프레임의 번호를 1만큼 증가시킨다는 것을 의미한다.

500단계에서 트레킹 위치 결정부(11)는 각각의 프레임에 따른 타겟 후보를 결정한다. 본 단계에서 타겟 후보를 결정한다는 것은 타겟 후보의 위치 즉 서브 윈도우 정보(y, h)를 결정한다는 것과 같은 의미이다.

도 5는 도 4에서 500단계에 대한 세부 흐름도이다.

502단계에서 히스토그램 추출부(12)는 윈도우 정보(y₀, h₀)에 따른 타겟 후보(제1 타겟 후보)의 히스토그램을 2번째 프레임의 비디오 영상에서 추출한다. 즉, 히스토그램 추출부는 1번째 프레임에서 타겟 모델과 동일한 위치에서 타겟 후보를 추출한다. 이전 프레임에서 검출을 수행하지 않고 트레킹 만을 수행한 경우에, 히스토그램 추출부는 이전 프레임의 트레킹 결과로서 특정된 위치에서 현재 프레임의 타겟 후보의 히스토그램을 추출한다.

504단계에서 비교부(13)는 타겟 모델의 히스토그램과 제1 타겟 후보의 히스토그램 간의 제1 유사도를 계산한다. 상기 타겟 모델과 제1 타겟 후보의 동일한 서브 윈도우를 통하여 특정되는 것이지만, 전자는 1번째 프레임에서 특정된 영상이고, 후자는 2번째 프레임에서 특정되는 영상이라는 점에서 다르다.

506단계에서 가중치 조절부(14)는 타겟 모델의 히스토그램과 제1 타겟 후보의 히스토그램을 이용하여 상기 수학식6에 따라 제1 가중치를 계산한다.

508단계에서 트레킹 위치 결정부(11)는 제1 가중치와 y₀를 이용하여 상기 수학식5에 따라 새로운 중심 좌표(y₁)를 계산한다.

510단계에서 히스토그램 추출부(12)는 (y₁, h₀)에 따라 특정되는 제2 타겟 후보의 히스토그램을 2번째 프레임의 비디오 영상에서 추출한다.

512단계에서 비교부(13)는 타겟 모델의 히스토그램과 제2 타겟 후보의 히스토그램 간의 제2 유사도를 계산한다.

514단계에서 비교부(13)는 제1 유사도와 제2 유사도를 비교한다. 상기 비교 결과 제2 유사도값이 제1 유사도 값보다 큰 경우 제1 타겟 후보는 삭제되며, 이후의 트레킹 절차는 제2 타겟 후보의 위치 및 스케일에 기반하여 수행된다. 히스토그램 간의 유사도와 히스토그램간의 거리는 역의 관계가 있다. 비교부(13)는 수학식4에 따라 히스토그램 간의 거리를 계산하고 d(y₀, h₀) > d(y₁, h₀)의 관계를 가질 경우 트레킹 위치 결정부(11)는 (y₁, h₀)에 따라 이후의 트레킹 프로세스를 수행한다. 반면 d(y₀, h₀) < d(y₁, h₀)이라는 것은 제1 타겟 후보와 타겟 모델의 거리가 제2 타겟 후보와 타겟 모델의 거리 보다 작다는 것을 의미하므로, 제2 타겟 후보는 삭제되고 현재 프레임에 대한 트레킹은 종료되며, 이후 프레임에서의 트레킹은 제1 타겟 후보의 위치를 중심으로 수행된다.

516단계에서 스캐일 조절부(14)는 타겟 후보의 스캐일을 조절하고, 트레킹 위치 결정부(11)는 새롭게 조절된 스캐일에 따른 새로운 타겟 후보를 결정한다. 또 한, 히스토그램 추출부(12)는 스캐일이 조절된 새로운 타겟 후보로부터 색상 히스토그램을 추출한다.

518단계에서 트레킹 위치 결정부(11)는 가장 큰 유사도값을 갖는 (y, h) 쌍을 선택하고, 선택된 (y, h)를 이용하여 새로운 (y₀, h₀)로 계산한다. 예를 들어, h₁ = 1.1 h₀이고(10% scale up), h₂ = 0.9 h₀인 경우(10% scale down), d(y₁, h₁)와 d(y₁, h₂)를 계산한 후, d(y₁, h₀), d(y₁, h₁)와 d(y₁, h₂) 중 가장 작은 값의 중심 좌표와 반폭을 가질 때의 d_min를 구한다. d_min = d(y₁, h₀)인 경우에는 h₀= h₀이고, d_min = d(y₁, h₁)인 경우에는 h₀= r₁h₁ + (1- r₁)h₀이며, d_min = d(y₁, h₂)인 경우에는 h₀= r₂h₂ + (1- r₂)h₀로 계산할 수 있다. 여기에서, r₁ 과 r₂는 앞선 트레킹에 따른 중심 좌표(h₀)와 d_min에 해당하는 중심 좌표에 대한 가중치로서, 예를 들어 r₁ = 0.8, r₂ = 0.2로 설정할 수 있다.

520단계에서 스캐줄러(32)는 현재 프레임에 대한 트레킹의 반복 회수(t)와

소정의 iteration 값을 비교하여, 트래킹부(10)가 현재 프레임에서의 트레킹을 다시 수행하거나, 현재 프레임에서 트레킹을 종료하고 다음 프레임에서 트레킹을 수행할 것인지 여부를 결정한다.

600단계에서 스캐줄러(32)는 현재 프레임의 프레임 넘버를 일정한 수로 나누고 나머지가 0인지 여부를 파단한다. 예를 들어, 15프레임 간격으로 검출을 수행할 경우, 현재 프레임의 프레임 넘버를 15로 나누고 나머지가 0인지 여부를 판단한다. 나머지가 0인 경우 700단계가 수행되고, 나머지가 0이 아닌 경우 400단계가 수행된다. 즉, 검출부(20)에 의한 타겟 모델의 검출은 15n 프레임(n은 양수) 마다 수행된다.

700단계에서 검출부(20)는 트레킹이 수행된 프레임 또는 트레킹이 수행된 다음 프레임에서 타겟 영상을 검출한다. 본 실시예에서 정면 얼굴 검출기를 검출부(20)로 사용할 경우 15프레임 간격으로 정면 얼굴 검출을 수행하게 되며 측면 얼굴은 검출부(20)에서 검출되지는 않지만 트레킹부(10)에 의한 트레킹에 의하여 포착될 수 있다.

800단계에서 병합부(33)는 트레킹된 결과와 검출된 결과를 병합한다. 병합의 방법에 대하여는 도3에 대한 설명을 통해 상세히 설명한 바 있으므로 생략한다.

900단계에서 스캐줄러(32)는 촬영 모드가 종료되었는지 여부를 판단한다. 촬영 모드가 종료된 경우 트레킹 프로세스도 종료하며, 촬영 모드가 종료되지 않은 경우 800단계의 병합된 결과에 따라 트레킹 초기화 단계(300단계) 내지 병합 단계(800단계)가 다시 진행된다.

한편 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인 터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트 들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.

이제까지 본 발명에 대하여 바람직한 실시예를 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명을 구현할 수 있음을 이해할 것이다. 그러므로, 상기 개시된 실시예 들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 한다.

본 발명에 따르면 트레킹 결과와 검출 결과를 병합하고 병합된 결과에 따라 트레킹을 초기화하고 상기 초기화된 트레킹을 기반으로 이후의 트레킹을 수행함으로써, 멀티-뷰 타겟 검출기를 사용하지 않고도 다양한 각도에서 얼굴을 찾아 고속으로 트레킹할 수 있고, 차세대 DSC(Digital Still Camera)의 디스플레이 화면 상에서 얼굴 기반의 3A를 구현할 수 있다는 장점이 있다.

또한, 본 발명에 따르면, 새로운 타겟의 추가 및 기존 타겟의 제거가 용이하며, 기존의 멀티-뷰 타겟 검출기에 비하여 다양한 각도의 타겟을 포착하는데 필요 한 계산량과 메모리량이 적기 때문에 임베디드 소프트웨어 또는 칩으로 구현할 수 있다는 장점이 있다.

Claims

a) 미리 결정된 타겟 모델에 대한 트레킹을 수행하여, 상기 트레킹이 수행된 프레임의 타겟 후보를 결정하는 단계;

b) 상기 트레킹이 수행된 프레임에서 또는 상기 프레임의 다음 프레임에서 타겟 검출을 수행하는 단계; 및

c) 상기 a)단계에서 결정된 타겟 후보 또는 상기 b)단계에서 검출된 타겟을 이용하여 상기 타겟 모델을 갱신하고 트레킹을 초기화하는 단계를 포함하는 것을 특징으로 하는 비디오 영상 트레킹 방법.
제 1 항에 있어서, 상기 a) 단계에서 상기 트레킹을 수행하는 것은 타겟 후보의 통계적 분포 특성과 상기 타겟 모델의 통계적 분포 특성을 이용하는 것을 특징으로 하는 비디오 영상 트레킹 방법.
제 1 항에 있어서, 상기 c) 단계에서 상기 타겟 모델을 갱신하는 것은

상기 a) 단계에서 결정된 타겟 후보와 상기 b) 단계에서 검출된 타겟 간의 중복 영역이 소정의 기준값 보다 큰 경우 상기 a) 단계에서 결정된 타겟 후보를 삭제하고, 상기 b) 단계에서 검출된 타겟을 이용하여 타겟 모델을 갱신하는 것을 특징으로 하는 비디오 영상 트레킹 방법.
제 1 항에 있어서, 상기 a) 단계에서 상기 트레킹을 수행하는 것은

상기 미리 결정된 타겟 모델의 통계적 분포 특성과, 상기 트레킹이 수행된 프레임에 선행하는 프레임에서 수행된 트레킹 결과에 따라 특정되는 타겟 후보의 통계적 분포 특성 간의 유사도 또는 거리를 계산하고,

상기 타겟 모델과 타겟 후보의 통계적 분포 특성을 이용하여 상기 타겟 후보의 위치를 보정하여, 상기 보정된 위치에 따른 타겟 후보의 통계적 분포 특성과 상기 미리 결정된 타겟 모델의 통계적 분포 특성 간의 유사도 또는 거리를 계산한 후,

상기 계산된 유사도 또는 거리를 이용하여 트레킹을 수행하는 것을 특징으로 하는 비디오 영상 트레킹 방법.
제 1 항에 있어서, 상기 a) 단계에서 상기 미리 결정된 타겟 모델은

상기 a) 단계에서의 트레킹이 수행된 프레임에 선행하는 프레임에서 타겟 검출을 통해 결정되는 것을 특징으로 하는 비디오 영상 트레킹 방법.
제 2 항에 있어서, 상기 통계적 분포 특성은 색상 히스토그램 또는 에지 히스토그램인 것을 특징으로 하는 비디오 영상 트레킹 방법.
제 1 항에 있어서, 상기 a) 단계에서 상기 타겟 후보를 결정하는 것은,

상기 미리 결정된 타겟 모델과 상기 트레킹이 수행된 영상 프레임의 타겟 후 보의 유사도를 소정의 기준값과 비교하고, 상기 비교 결과에 따라 타겟 후보를 결정하는 것을 특징으로 하는 비디오 영상 트레킹 방법.
제 1 항에 있어서,

상기 a) 단계에서 상기 트레킹은 n 번째 프레임(n은 1보다 큰 양의 정수) 내지 n + m 번째(m은 양의 정수) 프레임 각각에 대하여 수행하고, 상기 b) 단계에서 상기 검출은 n+m 번째 프레임 또는 상기 n+m 번째 이후의 프레임에 대하여 수행하는 것으로서,

a1) 미리 결정된 타겟 모델의 통계적인 분포 특성과, 상기 미리 결정된 타겟 모델과 동일한 위치에 따른 상기 n 번째 프레임의 제 1 타겟 후보의 통계적 분포 특성 간의 제1 유사도를 계산하고, 상기 제1 유사도에 따라 상기 n 번째 영상 프레임의 제 2 타겟 후보의 위치를 결정하는 단계;

a2) 상기 a1) 단계에서 결정된 위치에 따른 제 2 타겟 후보의 통계적 분포 특성과 상기 미리 결정된 타겟 모델의 통계적인 분포 특성 간의 제2 유사도를 계산하는 단계; 및

a3) 상기 제1 유사도와 제2 유사도를 비교하고, 상기 비교 결과에 따라 선택적으로 상기 제 3 타겟 후보의 위치를 결정하고, 상기 제 3 타겟 후보의 통계적 분포 특성과 상기 미리 결정된 타겟 모델과 통계적 분포 특성 간의 제3 유사도를 계산하는 단계를 포함하고,

상기 트레킹이 수행된 프레임의 타겟 후보를 결정하는 것은 상기 계산된 유 사도 값 들 중에서 가장 큰 유사도 값을 갖는 타겟 후보를 상기 트레킹이 수행된 프레임의 타겟 후보로 결정하는 것을 특징으로 하는 비디오 영상 트레킹 방법.
제 4 항에 있어서, 상기 a) 단계에서 상기 트레킹을 수행하는 것은 상기 타겟 후보의 스캐일을 서로 다르게 조절하여 얻어지는 통계적 분포 특성과 상기 미리 결정된 타겟 모델의 통계적 분포 특성 간의 유사도 또는 거리를 더욱 고려하여 트레킹하는 것을 특징으로 하는 비디오 영상 트레킹 방법.
제 1 항에 있어서, 상기 b) 단계에서 상기 타겟 검출을 수행하는 것은 타겟의 정면 특징을 이용하는 것을 특징으로 하는 비디오 영상 트레킹 방법.
제 6 항에 있어서,

상기 타겟 모델의 색상 히스토그램은 하기 수학식에 따라 계산되는 것을 특징으로 하는 비디오 영상 트레킹 방법.

수학식

여기에서, x_i는 타겟 모델의 픽셀 위치이고, b(x_i)는 픽셀에 따른 빈(bin) 값을 나타내며, u는 픽셀의 색상을 나타내며, q_u는 u에 따른 히스토그램을 의미한다.
제 4 항에 있어서,

상기 거리는 하기 수학식에 따라 계산되는 것을 특징으로 하는 비디오 영상 트레킹 방법.

수학식

여기에서, d(y)는 미리 결정된 타겟 모델과 타겟 후보의 거리이고, N_q는 타겟 모델의 픽셀 개수이며, N_p(y)는 타겟 후보의 픽셀 개수이고, p_u(y)는 색상값 u에 따른 타겟 후보의 히스토그램이며, q_u는 타겟 모델의 히스토그램이다.
제 8 항에 있어서, 상기 a3) 단계는 상기 제 2 유사도가 제 1 유사도 보다 크거나 같을 경우에 수행되는 것을 특징으로 하는 비디오영상 트레킹 방법.
제 1 항의 비디오 영상 트레킹 방법이 컴퓨터 상에서 수행될 수 있는 컴퓨터에서 판독 가능한 기록 매체.
타겟 모델에 대한 트레킹을 통해 각각의 프레임에 따른 타겟 후보를 결정하는 트레킹부;

소정의 프레임 간격으로 타겟 영상을 검출하는 검출부; 및

상기 트레킹부에서 결정된 타겟 후보와 상기 검출부에서 검출된 타겟 영상을 이용하여 상기 타겟 모델을 갱신하고, 트레킹을 초기화하는 제어부를 포함하는 것을 특징으로 하는 비디오 영상 트레킹 장치.
제 15 항에 있어서, 상기 트레킹부는

타겟 후보의 통계적 분포 특성을 고려하여 트레킹을 하고자 하는 프레임에서 타겟 후보를 결정하는 트레킹 위치 결정부; 및

상기 트레킹 위치 결정부에 의하여 결정된 타겟 후보의 통계적 분포 특성에 대한 히스토그램을 추출하는 히스토그램 추출부를 포함하는 것을 특징으로 하는 비디오 영상 트레킹 장치.
제 15 항에 있어서, 상기 제어부는

상기 트레킹부에 의한 트레킹 프로세스와 상기 검출부에 의한 검출 프로세스를 관리하는 스캐줄러; 및

상기 결정된 타겟 후보와 상기 검출된 타겟 영상을 병합하여 타겟 모델을 갱신하는 병합부를 포함하는 것을 특징으로 하는 비디오 영상 트레킹 장치.
제 15 항에 있어서,

상기 병합부는 상기 트레킹이 수행된 프레임의 타겟 후보와 상기 검출된 타 겟 영상의 겹쳐진 영역이 소정의 기준값 보다 큰 경우 상기 타겟 후보를 삭제하고, 상기 제어부는 상기 검출된 타겟 영상에 따라 트레킹을 초기화하는 것을 특징으로 하는 비디오 영상 트레킹 장치.
제 15 항에 있어서,

상기 병합부는 상기 트레킹이 수행된 프레임의 타겟 후보와 상기 검출된 타겟 영상의 겹쳐진 영역이 소정의 기준값 보다 작은 경우, 상기 검출된 타겟 영상을 트레킹 모델로 추가하는 것을 특징으로 하는 비디오 영상 트레킹 장치.
제 16 항에 있어서,

상기 트레킹 위치 결정부는 스캐일을 서로 다르게 조절하여 얻어지는 타겟 후보의 통계적 분포 특성을 더욱 고려하여 상기 트레킹이 수행된 프레임의 타겟 후보를 결정하는 것을 특징으로 하는 비디오 영상 트레킹 장치.