[go: up one dir, main page]

MXPA99004772A - Seguimiento del movimiento utilizando modelos de imagen-textura - Google Patents

Seguimiento del movimiento utilizando modelos de imagen-textura

Info

Publication number
MXPA99004772A
MXPA99004772A MXPA/A/1999/004772A MX9904772A MXPA99004772A MX PA99004772 A MXPA99004772 A MX PA99004772A MX 9904772 A MX9904772 A MX 9904772A MX PA99004772 A MXPA99004772 A MX PA99004772A
Authority
MX
Mexico
Prior art keywords
image
model
models
search
block
Prior art date
Application number
MXPA/A/1999/004772A
Other languages
English (en)
Inventor
Astle Brian
Original Assignee
Astle Brian
Princeton Video Image Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Astle Brian, Princeton Video Image Inc filed Critical Astle Brian
Publication of MXPA99004772A publication Critical patent/MXPA99004772A/es

Links

Abstract

La presente invención se refiere a extraer modelos de imagen a partir de imágenes de vídeo en tiempo real y se almacenan en memoria. Los 5 modelos son seleccionados con base a su habilidad para proporcionar datos de posiciónútiles, por medio del ubicador de posición (2), y comparado con regiones de imágenes subsecuentes para encontrar la posición que da la mejor igualación. A partir de los datos de posición, un calculador de modelo de transformación (3) calcula un modelo de transformación. El controlador de seguimiento (1) sigue el movimiento de fondo en la imagen real para determinar de manera precisa el movimiento y la actitud de la cámara que graba la imagen real. Un confirmador de modelo de transformación (4) confirma el modelo de transformación examinando modelos de imagen predefinidos. Los datos de modelo de transformación y los datos del detector de cámara se usan después para insertar imágenes dentro de la transmisión de vídeo en vivo en la ubicación deseada en la perspectiva correcta. El actualizador de bloque (5) actualiza periódicamente los modelos almacenados para depurar aquellos que ya no dan datos de posición válidos o significativos. Los nuevos modelos extraído de las imágenes recientes se usan para reemplazar los modelos descartados.

Description

SEGUIMIENTO DEL MOVIMIENTO UTILIZANDO MODELOS DE IMAGEN- TEXTURA REFERENCIA CRUZADA PARA LAS SOLICITUDES RELACIONADAS La presente solicitud esta relacionada con y reclama los beneficios de la solicitud provisional de los Estados Unidos No.60/031, 883 presentada el 27 de noviembre de 1996 titulada "Camera Tracking Using Persistent, Selected, Image-Texture Templates" La presente solicitud esta relacionada también con las siguientes solicitudes copendientes de propiedad común: Solicitud Provisional de los Estados Unidos No. de Serie 60/038,143 presentada el 27 de noviembre de 1996 titulada "IMAGE IN VIDEO STREAMS USING A COMBINATION OF PHYSICAL SENSORS AND PATTERN RECOGNITION"; No. de Serie 08/563,598 presentada el 28 de noviembre de 1995 titulada "SYSTEM AND METHOD FOR INSERTING STATIC AND DYNAMIC IMAGES INTO A LIVE BROADCAST"; No. de Serie 08/580,892 presentada el 29 de diciembre de 1995 titulada "METHOD OF TRACKING ?CENE MOTION FOR LIVE VIDEO INSERTION SYSTEMS"; y No. de Serie 08/662,089 presentada el 12 de junio de 1996 titulada "SYSTEM AND METHOD OF REAL-TIME INSERTIONS INTO VIDEO USING ADAPTIVE OCLUSIÓN ITH A SYNTHETIC COMMON REFERENCE IMAGE".
CAMPO DE LA INVENCIÓN La presente invención se refiere a mejoras en sistemas que insertan marcas seleccionadas dentro de transmisiones de vídeo en vivo.
DESCRIPCIÓN DE LA TÉCNICA RELACIONADA Los dispositivos electrónicos para insertar marcas dentro de las transmisiones de vídeo en vivo han sido desarrolladas y utilizadas para el propósito de insertar anuncios, por ejemplo, en eventos deportivos. La disponibilidad de tales dispositivos depende directamente de su habilidad para hacer la inserción sin costuras y aparecer tal reales como sean posibles para ser parte de la escena real. La inserción debe ser también lo suficientemente fuerte para manejar las manipulaciones de cámara típicas tales como tomas panorámicas, inclinación, acercamiento, etc sin comprometer la integridad de la transmisión.
El anteponente clave en tal sistema de inserción de marcas es la capacidad para seguir el movimiento de la escena y el movimiento del fondo de una imagen a otra en la transmisión. Los datos de seguimiento confiables son necesarios a fin de calcular los modelos de transformación que ajustan una inserción destinada al tamaño adecuado y la perspectiva antes de la inserción de una imagen en cada nuevo cuadro de imagen.
La patente de los Estados Unidos No.5,264,933 para Rosser hace la observación de que los métodos estándar de reconocimiento de patrón y procesamiento de imagen pueden utilizarse para seguir el fondo y el movimiento de escena. Los métodos estándar de reconocimiento de patrón y procesamiento de imagen referidos son el seguimiento de carácter utilizando la correlación normalizada de modelos de imagen previamente almacenados. Esos métodos trabajan adecuadamente aunque no bajo en todas las condiciones.
Se han incorporado métodos subsecuentes que han sido denominados "seguimiento jerárquico geográfico adaptable" en los que un modelo elástico se usa para extender el dominio de los cuadros de imagen que pueden ser seguidos de manera adecuada. El dominio extendido incluye escenas ruidosas que contienen una gran cantidad de oclusión. La oclusión se refiere a la acción en la imagen actual que obscurece parte o la mayoría de los puntos de referencia preseleccionados utilizados por un sistema de inserción para calcular la posición y perspectiva de una inserción en la transmisión en vivo. El dominio extendido incluye también imágenes que contienen variaciones rápidas en las condiciones de eliminación general. El seguimiento jerárquico geográfico adaptable requiere por lo menos tres puntos de referencia separados que siempre son visibles en la imagen que se esta siguiendo. Ya que las condiciones de imagen precisas no pueden pronosticarse por adelantado se emplea usualmente una técnica de igualación de bloque denominada "correlación no normalizada".
La presente invención extiende adicionalmente el dominio de cuadro de imagen que puede ser seguidos para incluir cuadros en los que no hay puntos de referencia preseleccionados visibles. A diferencia del seguimiento jerárquico geográfico adaptable, el cual utiliza preferiblemente modelos sintéticos predefinidos, la presente invención usa modelos tomados a partir de la corriente de imágenes que se están transmitiendo.
Existen también esquemas de estimación de movimiento referentes a la técnica anterior. Los codificadores de vídeo digital que emplean la estimación de movimiento para propósitos de compresión de datos extraen modelos de imagen desde las imágenes de vídeo y calculan los vectores de movimiento.
Una imagen real se asegura contra intrusión con un conjunto de modelos y los vectores de movimiento de calculan para cada modelo utilizando una imagen transmitida previamente. El objeto es reducir el número de bitios necesarios para codificar un bloque de imagen transmitiendo solamente un vector de movimiento más factor de corrección opcional como oposición a la transmisión de un bloque de imagen completo. Después de codificar la imagen se descartan los modelos.
Los criterios de igualación de bloque típicos para este esquema incluyen Ll norm, L2 norm y correlación normalizada . Ll norm está definido como D=Sd,L2 norm está definido como ?d2 donde d es la diferencia en valores de pixel entre la imagen y el modelo. La suma total se lleva a cabo durante todos los pixeles en cada modelo. La correlación normalizada está definida como: /v« S/r ??W donde T representa los valores en el modelo y la I representa los valores en la imagen.
En esta descripción, las técnicas de igualación de bloques se definirán de manera que la mejor igualación corresponde al menor valor de los criterios de igualación seleccionados. Por lo tanto, si la correlación normalizada se utilizó como el criterio de igualación de bloque, la desigualación estaría definida como: conforme el modelo se mueve sobre la imagen actual la disposición de valores resultante y calculados utilizando los criterios de igualación de bloque seleccionada se llaman error de superficie y la mejor igualación ocurre cuando la superficie de error tiene un valor mínimo.
Ya que es probable que los niveles de iluminación en la imagen actual sean similares a los bloques de igualación en la imagen transmitida previamente, la igualación de bloque es más confiables que los métodos que incluyen la información de iluminación promedio.
La presente invención difiere de la estimación de movimiento utilizada en la codificación de vídeo en un número de formas significativas. En la presente invención, las modelos son un subconjunto cuidadosamente seleccionado de los bloques totales disponibles en vez de todas las posiciones posibles. La selección cuidadosa de una región y el modelo es necesario porque, a diferencia de la estimación de movimiento en algoritmos de comprensión, el resultado del presente cálculo no es un conjunto de vectores de movimiento para los bloques sino en lugar de ello un modelo de transformación individual. En un sentido de "error mínimo cuadrático" el modelo de transformación individual es el mejor descriptor del movimiento del ensamble de modelo. Además, los modelos están colocados en posiciones seleccionadas en la imagen en lugar de asegurar la imagen. Además, los modelos están almacenados en la memoria y no son descartados después de que cada imagen es procesada.
En la presente invención, la posición real de un modelo está determinada con relación a la posición previa considerando que la estimación de movimiento de la posición previa está determinada con relación a la posición asegurada actual. La estimación de movimiento en la codificación de vídeo está dirigida hacia la búsqueda de la mejor igualación de desplazamiento, es decir que con el menor error de codificación, a la imagen actual desde una imagen transmitida previamente. En contraste, la ubicación de posición de la presente invención está dirigida hacia la corrección visual (la percepción del observador de la imagen) del movimiento de la imagen. En casos ambiguos no es importante como la estimación de movimiento en la codificación de vídeo resuelve la ambigüedad aunque es critico cómo el método de ubicación de posición de la presente invención resuelve la ambigüedad. La resolución de la ambigüedad puede involucrar la examinación del modelo como se determinó a partir de otros bloques cercanos. La estimación de movimiento tiene precisión limitada, frecuentemente de medio pixel debido a los requerimientos computacionales y de codificación asociados con la precisión incrementada. Sin embargo, en la ubicación de posición, no hay tales límites de precisión.
BREVE DESCRIPCIÓN La presente invención utiliza modelos de imagen tomados directamente desde una corriente de vídeo de transmisión. Dependiendo de la aplicación pretendida, es decir, béisbol, fútbol americano, fútbol soccer, etc, los criterios de captura específicos se usan para seleccionar modelos a partir de la imagen actual. Para la estabilidad espacial a largo plazo, los modelos son almacenados en la memoria y permanecen útiles en tanto que los modelos continúan cumpliendo ciertos criterios de retención. Los criterios de retención incluyen una igualación satisfactoria a la imagen actual de la transmisión así como una consistencia espacial con otros modelos. La consistencia espacial significa que los modelos que se van a conservar son compatibles con otros modelos con respecto a la posición en oposición a la curvatura. Los modelos son actualizados periódicamente para desechar aquellos que ya no son capaces de dar datos de oposición satisfactorios. Los nuevos modelos seleccionados a partir de la imagen real son utilizados entonces para reemplazar aquellos descartados. La posición de cada modelo está determinada mediante la comparación del modelo contra la imagen real. El método de comparación preferido utiliza una búsqueda de posición entera seguida por un proceso de interpolación bidimensional para obtener la información de posición precisa para fracciones de un pixel. Un modelo de transformación calculado después a partir de los datos de oposición derivados utilizando datos adicionales relacionados con la forma de la superficie de error cerca de la posición de igualación. Un modelo de transformación proporciona una descripción de la imagen actual de manera que las marcas pueden ser insertadas dentro de la imagen actual en la ubicación deseada y la perspectiva correcta. Hay varias formas para este modelo de transformación, un ejemplo, el modelo más simple define la toma panorámica de inclinación y acercamiento de la cámara que registra el evento. Modelos más complejos pueden incluir parámetros de cámara tales como giro, desplazamientos de montaje y otro movimiento de cámara. El modelo de transformación puede ser confirmado mediante la examinación de modelos sintéticos predefinidos y el modelo puede ser ajustado si es necesario. Los cambios en los valores de desigualdad durante el tiempo permiten las transiciones de vídeo tal como los cortes de escena y que se detecten las apariciones graduales. Finalmente, el sistema y el método de la presente invención son viables en tanto que existe la textura en la imagen actual. La textura necesita no ser estacionaria, aunque durante periodos más largos que varios cuadro de vídeo, es decir escenas de masa de gente.
BREVE DESCRIPCIÓN DE LOS DIBUJOS La presente invención puede comprenderse mejor con referencia a las siguientes figuras en las cuales números de referencia similares representarán elementos similares en las diversas figuras.
La Figura 1 ilustra un diagrama de bloque del sistema de seguimiento de textura, en la cual el cuadro 1 representa un controlador de seguimiento; el cuadro 2 representa un localizador de posición; el cuadro 3 representa un calculador del modelo de transforación; el cuadro 4 representa un confirmador de modelo de transformación; el cuadro 5 representa un bloque de actualizador y el cuadro 6 representa un bloque de información de la presente invención.
La Figura 2 (a) y 2 (b) ilustran dos modelos de imagen diferente.
La Figura 3 es un diagrama de bloque que muestra las funciones del localizador de posición. En donde en el recuadro a) se predice donde pudiera estar un bloque; en el recuadro b) se conduce una búsqueda para encontrar la posición aproximada del integrador; en el recuadro c) se examina si las locaciones alrededor de la mejor área corresponde adecuadamente con diferencias mínimas; en el recuadro d) se lleva a cabo una interpolación fraccional para obtener las posiciones más exactas del bloque,' en el recuadro e) se escribe la información para contener la información.
La Figura 4 ilustra un método de interpolación de dos dimensiones utilizado en la presente invención.
La Figura 5 ilustra tres funciones de desigualdad de bloque sobrepuestas con respecto a la posición.
Las Figuras 6(a)-(c) ilustran un método de optimización bidimensional utilizado para ubicar la superficie de error mínima.
La Figura 7 ilustra la selección espacial de bloques en una imagen, específicamente para un partido de fútbol soccer.
La Figura 8 ilustra una imagen típica y una trayectoria de cámara A-B-C-D-E-F.
Las Figuras 9(a)-(c) ilustran un modelo vertical, modelo horizontal y una disposición de esos modelos utilizados para ubicar los postes de gol, de fútbol • americano.
Las Figuras 10 (a) - (c) ilustran los ángulos de toma panorámica, inclinación y giro, el tamaño de imagen de longitud focal, y el desplazamiento de eje óptico de una configuración de cámara.
DESCRIPCIÓN DETALLADA La detección de un área objetiva de inserción es solamente un aspecto de un sistema de inserción completo. A manera de antecedente, un LVIS, o sistema de inserción de vídeo en vivo, se describe en la solicitud de propiedad común No. de Serie 08/563,598 presentada el 28 de noviembre de 1995 titulada "SYSTEM AND METHOD FOR INSERTING STATIC AND DYNAMIC IMAGES INTO A LIVE VIDEO BROADCAST". Un LVIS es un sistema y método para insertar imágenes estáticas o dinámicas dentro de una transmisión de vídeo en vivo de una manera realista sobre una base de tiempo real. Inicialmente, los puntos de referencia naturales en una escena adecuados para la detección subsecuente y el seguimiento son seleccionados. Los puntos de referencia comprenden preferiblemente vertical bien definido, marcado y claro, horizontal, diagonal o características de esquina dentro de la escena visible para la cámara de vídeo conforme hace panorámicas y acercamientos . Típicamente, por lo menos tres o más puntos de referencia naturales están seleccionados. Se comprende que los puntos de referencia están distribuidos a través de toda la escena, tal como un parque de béisbol o un estadio de fútbol, y que el campo de observación de la cámara en un instante es normal y significativamente más pequeño que toda la escena que puede ser tomada en panorámica. Los puntos de referencia son ubicados frecuentemente fuera del punto de destino o área donde la inserción será colocada debido a que el área de inserción es típicamente muy pequeña para incluir puntos de referencia identificables numerosos y la imagen insertable puede ser una dinámica y, por lo tanto, no tiene un destino de objetivo estacionario individual.
El sistema modela los puntos de referencia naturales reconocibles sobre una rejilla bidimensional deformable. Un punto de referencia arbitrario se selecciona dentro de la escena. El punto de referencia está matemáticamente asociado con los puntos de referencia naturales y subsecuentemente utilizado para ubicar el área de inserción.
Antes del proceso de inserción, se ajusta la ilustración de la imagen que se va a insertar para perspectiva, es decir la forma. Debido a que el sistema conoce la relación matemática entre los puntos de referencia en la escena, puede determinar automáticamente el factor de acercamiento y el ajuste de posición X,Y que debe aplicarse. Posteriormente, cuando la cámara se acerca y se aleja y cambia su campo de visión conforme toma las panorámicas, la imagen insertable permanece en una escala adecuada y proporcionada con respecto a las otras características en el campo de observación de manera que parece natural para el visor doméstico. El sistema puede hacer panorámicas dentro y fuera de una escena y tener la imagen insertable que aparece de manera natural en la escena en lugar de surgir conforme ha sido el caso con algunos de los sistemas de la técnica anterior. El sistema puede colocar fácilmente una imagen insertable en cualquier ubicación.
La presente invención se refiere al aspecto de seguimiento de un sistema de inserción de vídeo en vivo. La Figura 1 ilustra un diagrama de bloque de un sistema de seguimiento de textura de imagen de la presente invención.
CONTROLADOR DE SEGUIMIENTO Un controlador de seguimiento controla la operación y la secuencia de cuatro módulos: 1 ubicador de posición 2, un calculador de modelo de transformación 3, un confirmador de modelo de transformación 4 y un actualizador de bloque 5. El ubicador de posición 2 lee los bloques de datos 6 y determina las posiciones de la imagen actual. Los bloques comprenden modelos y datos asociados. El ubicador de posición 2 almacena las posiciones actuales de los modelos junto con datos adicionales en los datos de bloque 6 una vez que ha ubicado exitosamente un modelo. Los datos adicionales incluyen datos que pertenecen a que también iguala un modelo la imagen actual y como cualquier desigualdad varía con la posición. El calculador de modelo de transformación 3 utiliza los datos de bloque 6 para calcular un modelo de transformación. El modelo de transformación define como un modelo de referencia puede ser cambiado a fin de corresponder satisfactoriamente con la imagen actual. El modelo de referencia es una representación de una escena en un sistema coordinado independiente de las coordenadas de imagen actual. Un modelo de cámara es un tipo específico de modelo de transformación expresada en términos de parámetros de cámara solamente, por ejemplo toma panorámica, acercamiento, inclinación y giro. El confirmador de modelo de transformación 4 asegura que el modelo de transformación es una descripción visualmente correcta de la imagen real mediante la observación de los errores de seguimiento así como la evidencia de cortes de escena y otros efectos de vídeo digital. El actualizador de bloque 5 examina los bloques, depura la memoria de aquellos que ya no son útiles y selecciona y almacena el reemplazo o nuevos bloques. Cada uno de los módulos de la Figura 1 es normalmente activado una vez por campo de vídeo entrelazado.
Cuando un área de objetivo de inserción se detecta por primera vez, el controlador de seguimiento activa el actualizador de bloque 5 para seleccionar y almacenar los bloques. El modelo de transformación derivado a partir de la detección se usa para relacionar los bloques almacenados a un modelo de referencia. Esos bloques son usados después por el ubicador de posición 2, el calculador de modelo 3 y el confirmador de modelo 4 en campo subsecuente. UBICADOR DE POSICIÓN El ubicador de posición 2 determina la posición de modelos almacenados con respecto a la imagen real. Los modelos consisten típicamente de una disposición rectangular de pixeles. Se han obtenido buenos resultados a partir de disposiciones de 8x8 hasta 16x16 pixeles. Tamaños más grandes dan mejores resultados y el movimiento es simple en tanto que los tamaños más pequeños dan mejores resultados para movimiento complejo.
Existen dos tipos de modelo, modelos de imagen que son derivados a partir de una imagen y modelos sintéticos que son predefinidos y no son derivados de ninguna imagen particular. Los modelos sintéticos son típicamente modelos de medio cero. Los modelos de media cero son modelos cuyos niveles de iluminación promedio son cero. Estos pueden derivarse de modelos mediante la sustracción del nivel de iluminación promedio desde cada pixel en el modelo. La Figura 2 (a) ilustra un modelo de medio cero destinado para detección de bordes verticales y la Figura 2 (b) ilustra un modelo de imagen continuo artificial que muestra una colección de niveles de iluminación de pixel para una disposición de 8x8.
El bloque consta de uno o más modelos junto con datos asociados. Hay dos tipos de bloques, bloques de imagen que contiene modelos de imagen y bloques sintéticos que contienen modelos sintéticos. Los bloques sintéticos están relacionados típicamente a las líneas en el modelo de referencia en tanto que los bloques de imagen están relacionados típicamente a los puntos en el modelo de referencia.
Dado el tiempo, las posiciones de todos los modelos almacenados con respecto a la imagen real se determinan mediante búsqueda. A menos de que la búsqueda sea exhaustiva sobre un área predefinida, el tiempo tomado para la búsqueda no puede ser normalmente predeterminado y el controlador de seguimiento normalmente fija un límite de tiempo dentro del cual todas las búsquedas deben ser completadas. Este límite de tiempo debe permitir el tiempo suficiente para actualizar los bloques. Generalmente, los límites de tiempo deben ser fijados de manera que el número de bloques activos que permanecen después de la actualización de bloques puedan ser buscados adecuadamente durante campos subsecuentes. El número de bloques puede variar conforme cambia el vídeo. Los bloques activos son aquellos bloques que igualan la imagen actual.
La posición de cada modelo es típicamente encontrada conduciendo una búsqueda sobre una región limitada de la imagen actual. Una forma eficiente de búsqueda es ejecutar una igualación en posición de pixel enteras utilizando criterios de igualación de bloque preseleccíonado. A fin de obtener una estimación precisa del movimiento de las imágenes, es deseable tener una estimación de la posición del modelo para la precisión del subpixel . La precisión del subpixel es necesaria para la estabilidad y precisión del modelo de transformación, particularmente cuando sólo un pequeño número de modelos produce datos de posición confiable. La búsqueda tiene lugar preferiblemente en dos fases, una búsqueda integra de posición seguida por un proceso de interpolación de pixel fraccionario.
Para una búsqueda integra de posición, cada modelo está colocado en varias pociones de posición íntegra en la imagen real y una superficie de error se calcula utilizando los criterios de captura de modelo seleccionado. Normalmente, el mínimo de error de superficie se usa como la posición íntegra. Si los recursos computacionales extensivos están disponibles, la búsqueda puede ser exhaustiva sobre un área grande. Para mayor eficiencia, el movimiento local y la posición del modelo pueden pronosticarse utilizando el historial reciente de los modelos de transformación junto con las ubicaciones de cualesquiera modelos encontrados en la imagen real. El vector de movimiento local estimado se usa para determinar el tamaño y la forma de una región sobre la que se ejecuta la búsqueda. Ya que los vectores de movimiento grande es probable que sean menos precisos en su pronóstico que los vectores de movimiento pequeño, el tamaño de la región de búsqueda debe incrementarse conforme se incrementa la magnitud del vector. Es importante verificar que el sector cero ya que la reproducción u otra edición de vídeo puede perturbar el modelo de transformación pronosticado. El vector cero representa no movimiento de la posición del modelo en la imagen real que es idéntico a la posición del modelo en la imagen previa.
El pronóstico es importante ya que reduce el tiempo de cálculo y puede resolver las ambigüedades de oposición. Por ejemplo, si dos ubicaciones de modelo igualmente buenas son encontradas entonces la ubicación de modelo más cercana a la posición pronosticada es más probable que sea la ubicación de modelo correcta. Las técnicas de pronostico lineal simple o de segundo orden son normalmente suficientes. Se obtienen mejores resultados pronosticando el movimiento de la cámara en vez del movimiento de la imagen ya que las cámaras tienen inercia física para la toma panorámica y la inclinación, y el acercamiento tiende a ser uniforme. Observe que en el entrelazamiento del vídeo puede alterar los pronósticos simples de campo a campo y debe tenerse cuidado para permitir que esto, en lugar de ser utilizado por los esquemas de producción de predicción en base a cuadro, o permitir un desfasamiento del entrelazamiento del vídeo. Observe también que el ruido de posición puede estar presente debido a la vibración de la cámara y que durante la reproducción, o cuando el vídeo ha sido editado, los modelos de predicción simple pueden no funcionar. Por lo tanto, es importante permitir el comportamiento no pronosticable verificando continuamente el movimiento cero o ejecutando una búsqueda amplia sobre unos cuantos bloques seleccionados con modelos que tienen textura bien definida.
Cuando ciertos objetos de seguimiento tales como la red o separaciones, mínimos de superficie de error múltiple pueden estar presentes. Tales multiplicidades pueden resolverse mediante pronóstico u obteniendo una estimación inicial a partir de aquellos modelos que exhiben solamente un mínimo individual. Una forma de seleccionar entre mínimos múltiples es utilizar fusión de evaluación que coloca menos énfasis en los mínimos que son adicionales de la posición pronosticada y para seleccionar el mejor mínimo evaluado.
Un método para conducir la búsqueda de posición de entero es para buscar exhaustivamente una serie de regiones. La región de búsqueda inicial está centrada sobre una posición de modelo pronosticada, y su tamaño y forma dependen de la velocidad local de los pixeles como se estimó a partir del movimiento de cámara pronosticado. Si el mínimo ocurre en un borde de la región de búsqueda entonces una segunda búsqueda se hace en una región que encierra al primer mínimo. Cuando se encuentra un mínimo dentro de la región pronosticada, es decir no en el límite, la búsqueda de entero termina exitosamente. Para evitar el gastar demasiado tiempo en bloques que son probables que tengan error, es mejor terminar la búsqueda después de dos o tres etapas. Si un mínimo no es encontrado, entonces esta información es escrita en los datos de bloque ß de manera que el bloque puede ser depurado posteriormente por el actualizador de bloque 5.
Otra opción es estimar el modelo de transformación conforme las posiciones de modelo son determinadas progresivamente. Mientras más estimaciones confiables se hagan, las regiones de búsqueda pueden reducirse en tamaño y el número de etapas permitidas disminuirse.
Los criterios de igualación de bloque típico se incluyen Ll norm 12 norm, y correlación normalizada D=?d, L2 está definido como ?of donde d es la diferencia en valores de pixel entre la imagen y el modelo. La suma se lleva a cabo sobre todos los pixeles en cada modelo. La correlación normalizada esta definida como: donde T representa valores de pixel en el modelo de imagen y la letra I representa los valores en la imagen actual.
En esta descripción, las técnicas de igualación de bloques serán definidas de manera que la mejor igualación corresponde al menor valor de los criterios de igualación seleccionados. Por lo tanto, si se usó la correlación normalizada como el criterio de igualación de bloque, la desigualdad estaría definida como: Conforme el modelo se mueve sobre la imagen real la disposición resultante de valores calculados utilizando los criterios de igualación de bloques seleccionados son llamados superficie de error y la mejor igualación se presenta cuando la superficie de error tiene un valor mínimo. Los modelos son un subconjunto seleccionado cuidadosamente de los bloques totales disponibles en vez de todas las posiciones posibles. La selección cuidadosa de una región y el modelo es necesario debido a que, a diferencia de la estimación de movimiento en algoritmos de comprensión, el resultado del presente cálculo no es un conjunto de vectores de movimiento para los bloques, sino un modelo de transformación individual. En un sentido de "error cuadrático mínimo" el modelo de transformación individual es el mejor descriptor del movimiento del ensamble del modelo. Además, los modelos son colocados en posiciones seleccionadas en la imagen en vez de inclinar la imagen. Además, los modelos son almacenados en la memoria y no son desechados después de que se procesa cada imagen.
En la presente invención, la posición real de un modelo está determinada con relación a las posiciones previas considerando la estimación de movimiento de la posición previa que está determinada con relación a la posición inclinada real. La estimación de movimiento en la codificación de vídeo está dirigida para encontrar la mejor igualación de desplazamiento, es decir aquella con el menor error de codificación, para la imagen real desde una imagen transmitida previamente. En contraste, la ubicación de posición de la presente invención está dirigida a la corrección visual (percepción del observador de la imagen) del movimiento de la imagen. En casos ambiguos no es importante como resuelve la estimación de movimiento a la ambigüedad sino que es importante como el método de ubicación de posición de la presente invención resuelve la ambigüedad.
La resolución de la ambigüedad puede involucrar el examen de modelo como se determinó a partir de otros bloques cercanos. La estimación de movimiento tiene precisión limitada como frecuentemente hasta medio pixel, debido a los requerimientos de computo y codificación asociados con la precisión incrementada. Sin embargo, en la ubicación de posición no hay tales límites de precisión.
Después de que termina la búsqueda de posición de entero de manera exitosa, la parte fraccionaria del vector de movimiento se estima. Hay varias formas para hacer esto.
Después de que termina exitosamente la búsqueda de entero, la parte fraccionaria del vector de movimiento se estima. Los valores numéricos de la desigualdad cerca del mínimo entero dan una superficie de error. La forma de la superficie de error depende de los criterios de igualación de bloque, el modelo y la imagen real. Un método preferido utiliza Ll para búsqueda de entero seguida por una interpolación triangular para la estimación fraccionaria. Una interpolación triangular unidimensional está ilustrada en la Figura 3. Las Líneas de igual inclinación aunque opuestas son construida a través del mínimo entero 32 y dos puntos adyacentes 31 y 33. La Interpolación Parabólica, la cual está ilustrada en la Figura 3 ( (a) pronóstico en donde es probable que esté un bloque, (b) conduce la búsqueda de pixel entero para encontrar la posición aproximada, (c) examina desigualación en ubicaciones de entero alrededor dé la mejor área de igualación, es decir la mínima, (d) ejecutar la interpolación fraccional para obtener las posiciones más precisas del bloque, (e) escribe información al bloque de datos) ; ajusta una parábola a través de los mismos tres puntos. La Interpolación Parabólica conduce a algunos métodos de interpolación bidimensional, y es adecuada para la igualación de bloque L2 norm. La interpolación parabólica y triangular generalmente da valores diferentes para la posición y magnitud del mínimo. Tres interpolaciones de energía de mitades, las cuales son intermedias entre la interpolación triangular y parabólica pueden en ocasiones dar mejores resultados. El uso de puntos adicionales para ajustar una función cúbica o la regla flexible no es útil para las funciones de igualación de bloque antes descritas La ubicación de un mínimo de superficie de error requiere un método de optimización bidimensional. Están disponible varios de esos métodos. El modelo de imagen puede expandirse para dar valores en posiciones de su pixel y la posición de la búsqueda de entero aplicada a esas posiciones de su pixel. Un segundo método utiliza una secuencia de interpolaciones unidimensionales y un tercer método es para ajustar una superficie bidimensional directamente a la superficie de error.
El primer método está ilustrado en las Figuras 6(a)-(c). Los pixeles fuente en las FIG. 6 (a) están separados y los valores anotados en los mismos mediante por ejemplo interpolación bilíneal como se muestra en la FIG ß(b). Si la expansión es mediante un factor de n, los pixeles de modelo son igualados contra cada pixel de imagen expandida nth y la precisión posicional es 1/n. El modelo mostrado en la FIG: 6(c) iguala el modelo de imagen expandido si está colocado a 1/2 pixel a la derecha y 1/4 de pixel hacia abajo con referencia a la FIG. 6 (a). Este método es costoso desde el punto de vista computacional ya que las igualaciones n2 deben hacerse para obtener una precisión de 1/n.
El segundo método está ilustrado en la Fig. 4. Utiliza los valores de superficie de error cerca del mínimo encontrado por la búsqueda de posición de entero 40. Los mínimos son interpolados para líneas de exploración horizontales sobre 41 en 42 y debajo de 43 del mínimo entero, utilizando un método de interpolación unidimensional. El mínimo final es interpolado desde esos tres mínimos 44. Obsérvese que para una gran clase de superficies bidimensionales modeladas matemáticamente, esta técnica produce posiciones interpoladas perfectamente precisas.
Estiman también las curvaturas de la superficie de error. Si el modelo define un borde horizontal y vertical, de una estructura texturizada, entonces las curvaturas horizontal y vertical deben ser estimadas. La estimación simple es una representación (A-2B+C) donde B es el valor de la superficie de error en el mínimo y A y C son valores equidistantes desde el mínimo en cada lado. Para la interpolación parabólica las posiciones de las mediciones no son criticas, de manera que puede ser computacionalmente conveniente utilizar valores de posición de entero. Para otros métodos de interpolación, por ejemplo triangular, la posición es importante, y los valores interpolados pueden utilizarse en su lugar. Sí el modelo define un borde diagonal, entonces la curvatura perpendicular al borde debe ser medida. Las curvaturas mediadas o estimadas contribuyen a la evaluación de bloque utilizada por el calculador de modelo 3.
La igualación de bloque puede ser ejecutada por cualquiera de las técnicas previamente mencionadas, por ejemplo Ll norm, L2 norm, o correlación normalizada . Ll norm es desde el punto de vista computacional la más simple. En la codificación del vídeo es normal mediar solamente el componente luma de la imagen de la estimación del movimiento. Aunque luma usualmente contiene la mayor parte de la información de frecuencia de alta frecuencia espacial, los componentes de cromaticidad pueden proporcionar información adicional, particularmente útil en la resolución de ambigüedades de posición. Las funciones de desigualdad de bloque pueden ajustarse para incorporar la información de cromaticidad. En todas las igualdades, los valores son sumados para el espacio de color particular utilizando evaluaciones para combinar los planos de color. En Y, U y V espacios de color y otros espacios de color similares, el componente luma contiene normalmente la mayoría de la información de alta frecuencia espacial y es el componente más importante para la igualdad de posición Un tercer método para encontrar la posición bidimensional del mínimo de las superficie de error es asumir que la superficie de error tiene una forma particular cerca del mínimo e interpola la posición del mínimo utilizando un método desde su composición de valor singular tal como se describe en "Numerical Recipes in C" 2nd' Ed. , W. H. Press et al . , Cambridge Universi ty Press, 1992, p. 59. La forma puede ser una superficie de segundo grado, un cono elíptico u otra forma.
Debe tenerse cuidado en la aplicación de métodos de reducción de dos dimensiones ya que los bordes diagonales pueden resultar en posiciones que son muy susceptibles al •ruido de medición de pixel. Se recomienda que el mínimo encontrado mediante métodos de interpolación no se ha permitido que se desvié por más de un pixel desde la posición indicada por la búsqueda de entero.
Un problema con los métodos de interpolación simple, es que no toman en cuenta la simetría intrínseca de la superficie de error. El apéndice A-2 ilustra la fuente de la asimetría intrínseca. La forma preferida para lograr estimación más precisa es hacer una interpolación de la superficie de error encontrada utilizando la imagen original, es decir la imagen desde la cual fue extraído el modelo y medir el desfasamiento. Esto puede volverse parte de la posición de referencia. Otro método es medir la forma de la superficie de error utilizando la imagen original, y después calcular la posición del mínimo en base a las desviaciones desde esta forma en vez de la forma medida en imágenes subsecuentes .
A fin de extender el rango de búsqueda sin incurrir en una infracción de cálculo grande, puede emplearse una búsqueda de resolución múltiple. La imagen se filtra por un filtro de paso bajo primero y submuestreada para proporcionar una serie de imágenes de menor resolución. Los bloques o conjuntos de imágenes son guardados en cada nivel de resolución. La búsqueda y la igualación de bloque se ejecutan en cada nivel de resolución, iniciando con el nivel de resolución más bajo. Se calcula un modelo de transformación para cada nivel de resolución y se usa para pronosticar las posiciones de bloque para el siguiente nivel de resolución más alto. Este proceso reduce el rango de búsqueda en cada nivel de resolución. El modelo de transformación es refinado en cada nivel de resolución y el modelo de transformación final es obtenido en el nivel de resolución más alto. En algunos casos, por ejemplo el movimiento de cámara rápida que perturba los detalles de imagen, puede no ser posible para calcular un modelo de transformación preciso en el nivel de resolución más alto. En tales casos el modelo de transformación calculado en un nivel de resolución más bajo puede y debe ser utilizado.
CALCULADOR DE MODELO DE TRANSFORMACIÓN Un modelo de referencia es una representación de una imagen en un sistema de coordenadas que es independiente de las coordenadas de imagen real. Un modelo de transformación define la forma en la que el modelo de referencia debe ser cambiado para corresponder a la imagen real. Los modelos de transformación simple usan tres parámetros: acercamiento, desplazamiento horizontal y desplazamiento vertical. Los modelos de transformación más completos usan más parámetros de cámara. Esos parámetros de cámara incluyen toma panorámica, inclinación, giro, acercamiento y longitud focal. Los modelos de cámara responden por los cambios de perspectiva en la escena. Los modelos de transformación más complejos pueden responder por los cambios adicionales tales como los desfasamientos de montaje de carga, distorsiones de lente, y variaciones de iluminación. Un modelo de cámara está ilustrado en las Figuras. 10 (a) que muestra como una cámara puede ser definida en términos de toma panorámica, inclinación y ángulos de giro junto con la longitud focal, el tamaño de imagen y el desfasamiento de eje óptico.
Pueden usarse varias técnicas para calcular el modelo de transformación. La técnica preferida es un método de error cuadrático medio que busca reducir al mínimo el error cuadrático medio de una función de desigualdad. Una adición útil a esta técnica es variar dinámicamente las evaluaciones de las posiciones de bloque. Esto reduce el efecto de los valores extremos debajo de esos métodos cuadráticos medios. Los valores extremos son aquellos bloques que tienen una posición que difiere significativamente de aquella determinada por la mayoría de los bloques. Variando dinámicamente los pesos es importante ya que los bloques pueden estar en error debido a un contenido de imagen de sistema óptico en vez de ruido aleatorio que es asumido por muchos métodos de error cuadrático medio. El método preferido ajusta primero las evaluaciones horizontal y vertical para cada bloque dependiendo de las curvaturas correspondientes de la superficie de error. Se calcula después un modelo de transformación preliminar utilizando el método de reducción de error cuadrático medio. Cada bloque es evaluado para determinar qué tanto se apega al modelo de transformación preliminar. Las evaluaciones de bloque son modificadas después dependiendo del error espacial. El modelo final se calcula utilizando las evaluaciones modificadas. Esta técnica de dos etapas reduce o elimina el efecto de los valores extremos. Una forma de calcular el modelo de transformación esta dada en el apéndice A-4.
CONFIRMADOR DE MODELO DE TRANSFORMACIÓN La confirmación del modelo de transformación se ejecuta examinando bloques sintéticos o predefinidos. Por ejemplo, si un poste de gol de fútbol es conocido por ser más ligero que más claro que el fondo que puede ser detectado utilizando los modelos de la Figura 9 (a) para las verticales y la Figura 9(b) para la barra horizontal como se coloca en la Figura 9 (c) . El método de igualación de bloque para los modelos de medio a cero sería aumentando al máximo la suma del producto de los pixeles de modelo y los pixeles de imagen. A fin de confirmar la presión de un poste de gol en oposición a alguna otra característica de imagen que consta de líneas de intersección. Los modelos marcados con un asterisco en la Figura 9(c) deben dar una correlación positiva, es decir la horizontal no se extenderá fuera de las verticales y la vertical no debe extenderse debajo de la barra transversal. Si un número suficiente de bloques están activos y dan la información de posición confiable, un modelo de transformación separado puede calcularse a partir de esos bloques y utilizarse para ajustar parcialmente el modelo de transformación principal. Si solamente unos cuantos son visibles entonces el ajuste debe ser pequeño para no perturbar indebidamente el modelo de transformación. Si los bloques predefinidos no pueden ser encontrados, o si las desigualdades son de amplitud creciente, entonces un corte de escena puede haber ocurrido, o puede estar en proceso un agrandamiento gradual de la imagen o un desvanecimiento gradual de la imagen. Una evaluación detallada de los bloques predefinidos junto con el historial reciente de los bloques de imagen permite una determinación de la transición de escena.
Si ocurre la desigualdad casi en todos los modelos y se está incrementando progresivamente, entonces se indica un desvanecimiento gradual. Si ocurre una desigualdad a lo largo de una línea de límite que divide la imagen, entonces se indica un agrandamiento gradual de la imagen. El problema de las transiciones de escena de detección confiable es simplificado si se sabe por adelantado qué tipo de transacciones pueden ocurrir. El problema de detectar una transición desconocida es difícil ya que tales transiciones pueden ser semejantes a los cambios que tiene lugar en una activación continua.
Obsérvese que la información de transición de escena puede hacerse disponible por medio de una señal separada, e incorporada quizá en el intervalo de supresión vertical, o codificado dentro de la imagen misma. Una estimación de la confiabilidad del modelo de transformación puede utilizarse durante esta etapa de confirmación.
Los modelos de transformación menos confiables pueden requerir confirmación más extensiva. La confiabilidad puede estimarse a partir de la suma de las evaluaciones como se calcularon mediante el calculador del modelo de transformación. Esta suma toma en cuenta el número de bloques, su textura o curva de la superficie de error y la desigualdad a partir del moldeo de transformación.
Una vez que el modelo de transformación ha sido encontrado y confirmado, puede hacerse la complementación de la inserción utilizando los métodos descritos en la patente Norteamericana 5,264,933 o el método descrito en la solicitud copendiente 08/ titulada "Tapestry".
ACTUALIZADOR DE BLOQUE Los bloques son examinados periódicamente a fin de determinar si deberían ser retenidos o no. La actualización de bloque se ejecuta preferiblemente en los campos impares solamente o en campos pares solamente a fin de reducir los problemas de estabilidad de entrelazado de vídeo. En la actualización de la modalidad preferida se hace sobre campos de seguimiento pares contando el primer campo de seguimiento como cero .
Hay dos etapas en el procedimiento de actualización de bloque, la depuración de bloques antiguos y la asignación de nuevos bloques.
La .primera etapa del procedimiento de actualización de bloque es depurar los bloques que no cumplen los criterios de retención de modelo. A fin de ser retenidos para uso adicional cada bloque almacenado debe satisfacer típicamente los siguientes criterios de retención: • El bloque almacenado debe estar en el área de seguridad de imagen (por ejemplo no en el área de supresión horizontal) • El bloque almacenado no debe estar en una región de imagen activa (por ejemplo no en los gráficos en pantalla traslapados) • La posición de bloque almacenado debe concordar con el modelo de transformación real • El bloque almacenado debe tener suficiente curvatura de la superficie de error.
Puede haber alguna aplicación adicional de criterio de retención específicos. Por ejemplo, en el seguimiento de un campo de juego de césped, el modelo puede solamente traslapar el césped y no a los jugadores.
La segunda etapa del procedimiento de actualización de bloque es asignar o extraer nuevos bloques. Los bloques son asignados primero a posiciones predefinidas en el modelo de referencia después en posiciones aleatorias en un área de búsqueda en el modelo de referencia como se transformaron para la imagen.
Es importante, completar siempre la primera etapa en el procedimiento de actualización de manera que los bloques inválidos son eliminados. La segunda etapa puede ser terminada cuando se termina el tiempo o cuando un número suficientes de modelos han sido capturados. Este procedimiento ajusta dinámicamente el número de bloques almacenados para igualación.
Los modelos de imagen son copiados desde la imagen, procesados opcionalmente y almacenados en una memoria. El número de modelos extraídos puede depender del tiempo de procesamiento disponible.
Para propósitos de extracción, los bloques de imagen pueden ser divididos en dos tipos, bloque de punto y bloques de área. Los bloques de punto tienen posiciones predefinidas en la imagen de referencia. Un ejemplo de un bloque de punto podría ser la esquina de un poste de gol de fútbol. Un modelo es asignado a la posición de imagen más cercana a aquella calculada desde el modelo de referencia utilizando el modelo de transformación. Si se cumplen los criterios para almacenamiento exitoso, su posición real en el modelo de referencia es almacenada. Esto desviará la posición de referencia en una cantidad menor de la mitad de un pixel de imagen calculado utilizando el modelo de transformación para la imagen para la cual se copió. Los bloques de área son asignados aleatoriamente dentro de un área de búsqueda en el modelo de referencia. Su cumplen los criterios para el almacenamiento exitoso, sus posiciones reales en el modelo de referencia son almacenadas.
Para hacer eficiente el uso de los recursos de procesamiento disponibles, cada modelo extraído debe de satisfacer ciertos criterios de captura de modelo. Su posición debe estar en un área segura; es decir, cada modelo extraído debe ser alejado de los bordes de la imagen, y, en particular, lejos de cualquier oscurecimiento u otros efectos debidos a la supresión de vídeo. Además, cada modelo extraído debe estar en el área de búsqueda, es decir en un área conocida para el controlador en base al análisis previo. Por ejemplo, lo modelos en un estadio pueden ser capturados a partir de los locales o las estructuras de estadio en lugar del campo de juego a fin de evitar perturbaciones espaciales debido al movimiento de los jugadores. Cada modelo extraído debe ser pronosticado para no dejar esas áreas. El pronóstico que se basa en el historial reciente del movimiento de cámara. Además, cada modelo extraído no debe estar en cualquiera de las áreas de exclusión, por ejemplo el área de grabación que se muestra en un mensaje en pantalla independiente del vídeo fuente y debe ser pronosticado para evitar esas áreas en el futuro inmediato. Finalmente, cada modelo extraído no debe traslapar cualquier otro de los modelos existentes para eficiencia, aunque un ligero traslape puede permitirse. Esto puede plantear la textura suficiente para los criterios de igualación de bloque seleccionado que funcionen. La textura puede ser determinada por uno de un número de medios, por ejemplo medir la variación de luma, o aplicar el modelo a la imagen fuente y medir la forma de la superficie de error. Si todas esas condiciones se satisfacen, entonces se extrae el modelo de imagen.
En ciertas situaciones puede haber restricciones de captura de modelo adicionales sobre los modelos. Estos pueden relacionarse al color o la textura de la imagen misma. Por ejemplo, si se desea seguir un objeto de color rojo, entonces todos los modelos deben incluir algunos pixeles en color rojo. Para otro ejemplo, si se desea seguir una superficie de pasto de un campo de juego, entonces lo modelos deben excluir las regiones que no contengan colores de pasto a fin de excluir a los jugadores. El pasto puede ser definido como un cierto volumen en un espacio de color tridimensional . Un cálculo adicional permitiría la inclusión de las líneas de campo de juego en los modelos.
Los modelos pueden ser procesados en un número de formas. Ellos pueden ser filtrados para reducir el ruido y otros artefactos, aunque esto puede tener el efecto indeseado de reducir la precisión espacial de la igualación. Ellos pueden ser comparados con modelos previamente capturados en la misma área y promediados para reducir el ruido. Ellos pueden ser ajustados para acercamiento o variaciones de perspectiva en base a las acciones de cámara calculadas.
En lugar de copiar un nuevo modelo desde la imagen real, las bloques inactivos pueden ser reactivados recuperando los modelos desde la memoria e igualándolos a la imagen actual. Pueden ser igualados directamente, o cambiados en amplitud, forma o brillo o de otra manera, a fin de igualar el modelo de transformación actual y la iluminación de imagen. Esto tiene la ventaja de incrementar la estabilidad a largo plazo.
Las forma de la superficie de modelo es importante.
Las direcciones y valores de la curvatura máxima y mínima debe ser determinada de manera que pueda ser determinada si el modelo representa un borde vertical u horizontal, o tiene una estructura bidimensional. Una forma para hacer esto es utilizar la igualación de bloque para generar una superficie de error para la imagen fuente. La curvatura de la superficie de error indica el tipo de característica de imagen. Algunos métodos de cálculo del modelo de transformación no reconocen los bordes diagonales y la presencia de tales bordes puede reducir la precisión del modelo. Por otra parte, tales modelos serán depurados cuando den una posición incorrecta y ya no tengan efecto de término sobre la precisión del modelo de transformación. Sin embargo, para escenas donde las líneas diagonales forman una parte importante de la información de ubicación espacial, por ejemplo, las canchas de tenis, las líneas diagonales deben ser reconocidas y utilizadas para proporcionar información de posición solamente en una dirección perpendicular.
La Figura 7 ilustra la selección de bloques para seguir el movimiento de un campo de fútbol . Los campos son seleccionados de manera que el bloque completo más una región de seguridad alrededor de cada bloque consta enteramente de la superficie de juego, en este caso pasto. El pasto está definido por una cierta forma volumétrica en espacio de color tridimensional. Si cualquier pixel se ubica fuera de esta región el bloque es rechazado.
La Figura 8 ilustra el procedimiento de seguimiento conforme la cámara hace tomas panorámicas y cambio de inclinación. Para simplicidad, se asume que la iluminación y el acercamiento son constantes. La esquina derecha inferior del poste de gol es asumida que sigue la trayectoria A-B-C-D-E-F con relación al perfil de imagen. Durante la trayectoria desde A hasta B, el seguimiento es ejecutado utilizando una mezcla de bloques de textura predefinidos y de imagen. Una confirmación de modelo completa en base al tamaño y la forma de los postes de gol es posible. En el punto B, la barra transversal horizontal desaparece de la vista. Una confirmación de modelo completa ya no es posible aunque el acercamiento y la toma panorámica pueden ser calculadas aún a partir de los bloques de punto de referencia por si solos. Los bloques que estuvieron en la barra transversal son reasignados a otras partes de la imagen. Desde B hasta C el seguimiento continua utilizando los bloques almacenados. En el punto C la posición vertical derecha desaparece de la vista y los bloques asociados con este son reasignados. En el punto D la barra transversal horizontal es pronosticada para reaparecer, y se conduce una búsqueda utilizando los bloques de punto de referencia. Después de que se localiza la barra transversal, cualesquiera discrepancias en el modelo se resuelven lentamente para no perturbar la ubicación de inserción. En el punto E en la parte vertical derecha se vuelve visible, y, entre E y F, es posible de nuevo la confirmación de modelo completa.
Durante el seguimiento, las bloques de área tienden a migrar hacia aquella área de la imagen que define de manera más precisa el modelo de transformación. Por ejemplo, asúmase que un corte de escena ocurre para una escena de inserción cuando están visibles objetos de fondo grande. Los bloques de área serán asignados aleatoriamente al fondo y al primer plano. A menos que el primer plano tenga la mayoría de bloques y se mueva con consistencia interna, el modelo de transformación será definido por el fondo. Tan pronto como parte del campo principal se mueve en correlación al fondo, cualesquiera bloques asignados a este será incompatibles con el modelo de transformación y serán depurados y después reasignados aleatoriamente, eventualmente al terminar en el fondo. La migración de bloque incrementa la estabilidad de la posición de inserción.
Otro tipo de migración de bloque entre los tipos de bloques, se ilustra mediante un partido de tenis de cancha de arcilla típico. Al inicio del juego las líneas de la cancha están limpias y bien marcadas, y la superficie de la cancha es uniforme. Las líneas serán cubiertas por los bloques sintéticos, y habrá pocos bloques de imagen sobre la superficie de la cancha. Durante la igualación, las líneas típicamente se obscurecen y la superficie del terreno de juego se vuelve más áspera y gana textura. Los bloques sintéticos son depurados progresivamente y los bloques de imagen agregados progresivamente a la cancha.
Los bloques pueden ser purgados, aunque el modelo almacenado para uso futuro posible. Por ejemplo, si el acercamiento a cambiado de manera que un modelo ya no proporciona una buena igualación, puede capturarse un nuevo modelo y el anterior colocarse en un almacenamiento a largo plazo. En algún tiempo futuro, el acercamiento puede regresar a su valor anterior, en cuyo caso el modelo anterior puede ser recuperado y probado para ver si puede proporcionar o no una igualdad útil.
APÉNDICES Se han incluido cuatro apéndices con la presente que describen e ilustran adicionalmente ciertos aspectos de la presente invención. El apéndice Al es una comparación de los criterios de igualación de bloque seleccionado contra los bloques de imagen actual posibles. El apéndice A2 es una descripción más detallada de una estimación fraccionaria unidimensional que ilustra la fuente de asimetría de una superficie asociada con métodos de interpolación simples. El Apéndice A3 es un glosario de términos utilizados a través del texto de este documento. Finalmente, el Apéndice A4 es un método específico para calcular un modelo de seguimiento sin perspectiva de parámetro de tres parámetros óptimo para la medición de modelos de imagen derivada.
APÉNDICES APÉNDICE A-l UNA COMPARACIÓN DE ALGUNOS CRITERIOS DE IGUALACIÓN DE BLOQUE Considere la igualación del siguiente bloque de modelo 2x2 1 2 4 1 Para los siguientes bloques de imagen: 1 3 9 21 30 30 4 1 39 11 30 30 A B C La mejor igualación es para bloque A que difiere solamente un nivel en un pixel. El bloque B tiene una forma similar aunque una amplitud mucho mayor, y el bloque C es uniforme.
Las igualaciones son evaluadas utilizando las siguientes metodologías de criterio.
• Ll = Ll norm • L2 = L2 norm • BA = 2*?IT/(?I2+?T2) . • NC = Correlación normalizada • TI = ?TI • Zl = ?IZ donde Z son los valores de pixeles de media cero del modelo como se muestra a continuación -1 0 2 -1 Observe que el valor del pixel en la esquina derecha superior en la imagen no tiene efecto en Zl sugiriendo que este es un método de criterio de igualación escaso ya que la multiplicación por cero produce un valor nulo para esa ubicación de pixel .
Los resultados de los diferentes criterios de igualación se muestran en el siguiente cuadro donde un asterisco (*) marca la mejor igualación. Criterios A B C Ll min 1* 72 112 L2 min 1* 1750 3142 BA max 0.9796* 0.1325 0.1995 NC max 0.9847 0.9991* 0.8528 TI max 24 218 240* Zl mx 6 58* 0 Puede verse que los primeros tres métodos de criterio, Ll, L2 y BA, funcional bien. La correlación normalizada (NC) tiene algunos problemas potenciales, aunque en las imágenes reales las oportunidades de encontrar un bloque de imagen con la misma forma aunque diferente amplitud son pequeñas. TI y Zl no son recomendados ya que existen muchos bloques de imagen posibles que dan una marcación superior que una igualada en forma perfecta.
APÉNDICE A-2, Estimación Fraccionaria Unidimesional Forma de Interpolación Considérese la igualación de un bloque de modelo de seis elementos 1 1 1 2 2 2 para una imagen que contiene un borde bien definido correspondiente ...1 1 1 1 2 2 2 2... Las funciones de desigualdad de bloque para varios criterios se dan a continuación: donde NC significa Correlación Normalizada, Ll significa Ll norm, y L2 significa L2 norm. Tanto Ll como L2 tienen una forma triangular. La correlación normalizada tiene una forma asimétrica que tiene más picos que la triangular.
Considérese la igualación del bloque de modelo de 6 elementos 1 1 2 3 4 4 para una imagen que contiene un borde uniforme correspondiente: ...1 1 1 2 3 4 4 4... Las funciones de desigualdad de bloque para varios criterios se dan a continuación: Ll tiene una forma triangular. L2 tiene una forma que está cerca de la parabólica. La correlación normalizada tiene una forma asimétrica que esta entre un triángulo y una parábola.
Movimiento de Líneas Considérese la igualación de un bloque de modelo de cuatro elementos 2 2 4 4 para una imagen 2 2 4 4 4 2 La interpolación parabólica para el máximo utilizando la correlación normalizada da un máximo a 0.194 pixeles a la izquierda de la posición central correcta. La interpolación de el mínimo utilizando Ll da 0.167 pixeles a la izquierda. La interpolación triangular del máximo utilizando la correlación normalizada de un máximo a 0.280 pixeles a la izquierda de la posición central correcta. La interpolación triangular del mínimo utilizando Ll da 0.250 pixeles a la izquierda.
Esto demuestra que en general, la interpolación utilizando la correlación normalizada o Ll produce solamente posiciones aproximadas de la mejor igualación.
El desplazamiento de la imagen 0.5 pixel a la derecha da 2 2 2 3 4 3 La interpolación parabólica del máximo utilizando la correlación normalizada de un máximo a 0.105 pixeles a la derecha de la posición central. La interpolación parabólica del mínimo utilizando Ll da 0.167 pixeles a la derecha. La interpolación triangular del máximo utilizando la correlación normalizada de un máximo a 0.173 pixeles a la derecha de la posición central. La interpolación triangular del mínimo utilizando Ll da 0.25 pixeles a la derecha La interpolación parabólica utilizando la correlación normalizada da un desplazamiento a la derecha de 0.299 pixeles, utilizando Ll da un desplazamiento de 0.333 pixeles, ambos menores que el valor correcto de 0.5 pixeles. La interpolación triangular utilizando la correlación normalizada da un desplazamiento a la derecha de 0.453 pixeles, utilizando Ll da un desplazamiento de 0.5 pixeles, ambos mucho más cerca del valor correcto.
Movimiento de bordes Grandes Considérese la igualación del bloque de modelo de 4 elementos 1 1 3 3 para una imagen 1 1 1 3 Utilizando la interpolación parabólica de correlación normalizada del máximo da un máximo a 0.078 pixeles a la derecha de la posición central correcta.
Utilizando Ll tanto la interpolación parabólica y triangular dan la posición correcta.
El desplazamiento de la imagen 0.5 pixeles a la derecha da 1 1 1 2 3 3 3.
Utilizando la interpolación parabólica de correlación normalizada del mínimo da un máximo a 0.167 pixeles a la derecha de la posición central. En otras palabras moviendo el borde en desplazamiento de 0.5 pixel la posición del punto interpolado por solamente 0.089 pixel. Utilizando Ll la interpolación parabólica y triangular dan la posición correcta.
Movimiento de bordes pequeños Considérese la igualación del bloque de un modelo de 4 elementos 4 4 6 6 para una imagen: 4 4 4 6 6 6.
Los tres valores de correlación normalizada son: La interpolación parabólica del mínimo da un máximo a 0.034 pixeles a la derecha de la posición central correcta. Ll da la posición correcta.
El desplazamiento de la imagen 0.5 pixel a la derecha da 4 4 4 5 6 6 6 La interpolación parabólica del mínimo da un máximo a 0.469 pixeles a la derecha de la posición central. En otra palabras moviendo el borde 0.5 pixel desplaza la posición del pinto interpolado por 0.435 pixel. Ll da la posición correcta.
Esto demuestra que para bordes bien definidos Ll da una mejor estimación de la interpolación fraccionaria que la correlación normalizada.
APÉNDICE A-3 GLOSARIO DE TÉRMINOS bloque activo aquellos bloques que cumplen y están dentro de los criterios de igualación especificados con respecto a la imagen real. modelo a fin un modelo de transformación expresado por operaciones lineales bloque de área un bloque de imagen que está preasignado a un área en el modelo de referencia. antecedente aquella parte de una escena que permanece estacionaria con respecto al soporte de cámara. bloque uno o más modelos más los datos asociados que contienen información de posición para el modelo de referencia y el modelo de imagen real modelo de cámara un modelo de transformación que está expresado por los parámetros de cámara solamente, por ejemplo, toma panorámica, inclinación, acercamiento y giro. superficie de error una disposición bidímensional de valores que indican la desigualdad entre un modelo y una parte de la imagen real. plano principal aquella parte de una escena que se mueve con respecto al soporte de cámara. bloque de imagen un bloque que contiene un modelo de imagen modelo de imagen un modelo derivado a partir de una imagen textura de imagen una medida de variaciones pixel a pixel con respecto a niveles de iluminación vector de movimiento local el movimiento visual aparente de una pieza pequeña de la imagen desde un cuadro o campo al siguiente. mínimo el punto donde la superficie de error está en su punto mínimo indicando la mejor igualdad entre un modelo y la imagen real . bloque de punto un bloque de imagen que está preasignado a un punto específico en el modelo de referencia. modelo de referencia una representación de la escena de objeto es un sistema de coordenadas que es independiente de las coordenadas de imagen. bloque sintético un bloque que contiene un modelo sintético. modelo sintético un modelo predefinido no derivado a partir de cualquier imagen particular ya que ni el nivel de iluminación promedio ni la ampliación de una imagen es conocido, los modelos sintéticos son frecuentemente modelos de borde de media cero. modelo una disposición de pixeles. seguimiento de textura el seguimiento de la imagen utilizando modelos copiados desde la imagen y utilizados de acuerdo con el método descrito en la presente modelo de transformación define la forma en la que el modelo de referencia debe cambiarse a fin de corresponder con la imagen real APÉNDICE A-4 ESTIMACIÓN DEL MODELO DE SEGUIMIENTO Un método de cálculo del modelo de seguimiento sin perspectiva de tres parámetros óptimo a partir de la medición de un modelo de imagen es derivado. Las condiciones bajo las cuales la derivación cuadrática de medios ponderados puede generar el modelo "equivocado" son analizados. Un método para calcular el modelo que evita este problema es desarrollado.
El problema de cálculo de modelo de transformación puede establecerse como sigue: dado un modelo de referencia que contiene un conjunto de puntos P y una imagen real que contiene un conjunto de puntos de igualdad p, ¿cuál es la mejor estimación del modelo de transformación?. El enfoque estándar es reducir al mínimo alguna función de los errores de desplazamiento. Una medición conveniente es el error cuadrático medio ponderado. Las ponderaciones pueden basarse en los errores de desplazamiento pronosticados a partir de campos anteriores y desde los otros puntos en el campo vivo. Las ponderaciones deben incorporar también alguna medición de la confiabilidad o precisión de la medición de posición. Para simplicidad este apéndice considera solamente los errores de desplazamiento. Considera solamente un modelo de transformación de tres parámetros que consta de acercamiento, desplazamiento horizontal y desplazamiento vertical.
Definición de Modelo El modelo de transformación está definido en términos de tres parámetros: acercamiento z, desplazamiento horizontal u y desplazamiento vertical v. Si la imagen de referencia tiene un conjunto de puntos X, Y entonces los puntos de imagen actual correspondiente, X, Y están dados por: x=zX + u (1) y=zY + v (2) la inversión produce: X=(x-u)/z (3) Y=(y-v)/z (4) Ecuaciones MSE El error cuadrático total de la transformación es E=?? xi (XÍ-ZXÍ-U) 2+?iWyi (y±-zYi-y) 2 donde es la ponderación asociada con los desplazamiento horizontales del punto ith , y yi es la ponderación asociada con los desplazamientos verticales del punto ith. Una razón para necesitar diferentes ponderaciones es que la dirección vertical en un campo tiene un entrelazamiento considerando que la dirección horizontal no lo tiene. En la posición óptima: ^~2?fw xf-zX(~u)X¡-2 t?wyl( ¡-zYl~v) Y, ~0 •5— 22,n (?-?íí-')l-0 r?w.« r< + v? w» S, w» ¡ = ° (7) Resolviendo las ecuaciones 5, 6 y 7 resulta: « » (S; WxíXt " 2Sf W.. . S "-tf (9) {10) Las ecuaciones 8, 9 y 10 permiten que el modelo sea calculado directamente a partir de los puntos de imagen actuales .
Función de Ponderación La función de ponderación debido al error de desplazamiento debe tener las siguientes características: • desplazamientos positivos y negativos deben contribuir de igual manera a la ponderación • para desplazamientos pequeños la función de ponderación debe ser la unidad • para desplazamientos grandes, donde el punto está obviamente en error, la ponderación debe ser cero, y • debe hacer una transición uniforma para desplazamientos intermedios.
Muchas de las funciones de ponderación que cumplen esos criterios son posibles. La función preferida está definida como W= 1 + Gd¿ (14) donde G es la constante de ponderación y d es la distancia entre las posiciones pronosticada y medida.
La posición óptima puede encontrarse mediante un procedimiento interactivo: iniciando con una posición inicial o un conjunto inicial de ponderaciones, nuevas posiciones y ponderaciones se calculan alternadamente. Las condiciones de inicio pueden ser derivadas a partir de campos previos . Conforme avanzan las interacciones, aquellos puntos que son valores extremos y por lo tanto tienen ponderaciones pequeñas, podrían ser reexaminadas para determinar si un punto válido cerca del punto pronosticado puede encontrarse. Por ejemplo, un objeto cerca del punto deseado puede inicialmente ser erróneo para el punto deseado aunque conforme a las estimaciones de posición son reestructuradas, puede ser posible detectar el punto correcto buscando una región pequeña alrededor de la posición pronosticada.
El procedimiento interactivo puede converger hasta un óptimo que depende de las condiciones de inicio y sobre G. Cuando G es suficientemente pequeño existe un óptimo individual . Cuando G es grande frecuentemente hay muchos óptimos. Algunos son estables, es decir, un pequeño cambio es restaurado por el procedimiento interactivo, y algunos son inestables, es decir un pequeño cambio conduce a un nuevo óptimo.
Para evitar quedar atrapado en un óptimo local en el que solamente un pequeño número de puntos tienen ponderaciones significativas, el procedimiento interactivo puede iniciar con ponderaciones de unidad. El resultado puede entonces compararse con aquel inicio a partir de un pronóstico desde campos anteriores. Si los resultados concuerdan con el error de medición, un valor pronosticado filtrado puede ser utilizado para el modelo. Si los resultados difieren significativamente, entonces aquellos basados en el campo en vivo deben ser utilizados en vez de la diferencia que puede deberse a un cambio no pronosticable.
Valores Críticos de la Constante de Ponderación La transición entre uno y más de un óptimo ocurre en el valor crítico de G. El valor crítico depende del desplazamiento de los puntos de imagen. Los valores críticos de G serán calculados para un caso simple aunque importante. Asúmase que la imagen de referencia consta de un conjunto de puntos a lo largo de una línea recta. Sin pérdida de la generalidad esto es asumido para ser vertical. Asúmase que en la imagen en vivo una fracción R de los puntos es desplazada horizontalmente por una distancia H, quizás debido al objeto cercano. Si G es menor entonces hay un óptimo, considerando que si G es grande habrá dos óptimos estables, uno cerca de la línea y uno cerca del objeto. Abra un óptimo inestable adicional entre estos dos.
Asúmase que la línea en la imagen de referencia está en X=0 después la ecuación 9 se simplifica a: x= SiX?i i/Si ?i Agregando las ponderaciones de la ecuación 14 da: rH ' X rs - \±G(H~x? \ - r t+ GV \ -?- G(H-x Esta ecuación puede ser escrita nuevamente como una cúbica: Gx3- (2-r) GHx2+ (1+ (1-r) GH2) x-rH=e (15) La ecuacuación 15 ha sido expresada en términos del error residual e. Las posiciones óptimas corresponden a e=0. Esta ecuación puede ser reescrita introduciendo nuevamente las variables sin dimensión J y S J=GH2 (16) S=x/H (17) Js3- (2-r) Jsz+ (1+ (1 -r) J) s-r=e (18) Cuando J es menor que la posición óptima s=r. Este óptimo individual es estable. Esto es equivalente a decir que la posición no pondera óptima de la línea es el promedio aritmético de los puntos de imagen en vivo medidos.
Cuando R=0.5 un óptimo existe siempre en s=0.5. Cuando J es pequeño existe un óptimo estable. Cuando J es grande este óptimo es inestable y dos óptimos estables existen para los valores grande y más pequeño de s. El valor crítico de j puede calcularse mediante la ecuación de diferenciación 18 con respecto a s fijando entonces el valor igual a 0 en s=0.5. El valor crítico de J encontrado por este método es 4.
Para valores más pequeños de r el valor crítico puede calcularse como sigue. La ecuación de diferenciación 18 e igualando a 0 da los puntos estacionarios: .2-r±Vl-r-/-r2-3/J)/3 (19) Esta puede ser sustituida dentro de la ecuación 18 colocando e=0 para dar una ecuación para J y r. Para un r dado la nueva ecuación puede ser resuelta numéricamente para encontrar el valor crítico de J. Si r menor que 0.5 el punto estacionario superior debe ser utilizado para determinar el valor crítico. Utilizando este método se producen los siguientes valores críticos: r J 1/2 4.0 1/3 21.5 1/4 45.7 1/6 118 1/10 358 1/20 1518 En las primeras dos situaciones que siguen, una línea de seis puntos tiene un desfasamiento de un punto por 10 pixeles. A partir de la tabla anterior, el valor crítico de J es 118. A partir de la ecuación 16 la ponderación crítica es G=J/H2=1.18. Los valores más pequeños de G dan un óptimo individual y valores mayores dan dos óptimos estables.
Para seleccionar un valor de G para una aplicación de seguimiento, varios enfoques pueden ser seguidos. Uno de los más simples es asumir la precisión de medición que es H pixeles. Dados dos puntos de mayor separación es óptimo debe favorecer a uno u a otro. Por tanto, si H fueron 2 pixeles, G sería 1.0.
Debe comprenderse que la descripción anterior es ilustrativa de la presente invención. Las modificaciones puede distinguirse fácilmente por parte de aquellos con experiencia ordinaria en la técnica sin apartarse del espíritu o alcance de la presente invención.

Claims (22)

REIVINDICACIONES
1. Un método para seguimiento de movimiento en una corriente de imágenes de vídeo caracterizado porque comprende las etapas de: a) obtener un conjunto de modelos de imagen (bloques) a partir de una imagen de vídeo actual que cumple ciertos criterios de captura de modelo y almacenar tales modelos de imagen en memoria; b) determinar la posición de cada modelo de imagen almacenado con respecto a la imagen actual; c) calcular un modelo de transformación utilizando la posición de modelo determinada con respecto a la imagen real, el modelo de transformación para usarse para que corresponda a los datos de posición de referencia para los datos de posición de imagen real; d) depurar los modelos de imagen a partir de la memoria que no cumplen ciertos criterios de retención de modelo; y e) obtener nuevos modelos de imagen a partir de la imagen real para reemplazar los modelos de imagen que fueron depurados .
2. El método de conformidad con la reivindicación 1, caracterizado porque la etapa de depuración (d) y la etapa de obtención (e) se ejecutan ya sea en campos de vídeo impares solamente o en campos de vídeo pares solamente a fin de reducir los problemas de estabilidad de entrelazamiento de vídeo.
3. El método de conformidad con la reivindicación 1, caracterizado porque la etapa de obtención (e) es terminada después de un límite de tiempo preestablecido o después de que un número suficiente de modelos de imagen han sido obtenidos, cualquier evento que ocurra primero.
4. El método de conformidad con la reivindicación 1, caracterizado además porque comprende las etapas de: f) determinar una superficie de error que indica las desigualdades entre cada modelo de imagen y la imagen real en una región cercana a la posición de modelo determinada; g) evaluar la superficie de error para determinar su valor mínimo a fin de determinar la mejor igualdad entre los modelos de imagen y la imagen real; h) utilizar la superficie de error en el cálculo del modelo de transformación.
5. El método de conformidad con la reivindicación 4, caracterizado porque comprende además la etapa de: i) confirmar la precisión del modelo de transformación comparación sus resultados correspondientes contra un conjunto de modelos sintéticos definidos previamente.
6. El método de conformidad con la reivindicación 5, caracterizado porque la determinación de la posición de cada modelo de imagen almacenado con respecto a la imagen real comprende las etapas de: j) ejecutar una búsqueda de posición de entero a fin de determinar el valor mínimo de tal superficie de error; y k) a la terminación de la búsqueda de posición de entero, ejecutar una interpolación de pixel fraccionario a fin de estimar la parte fraccionaria del movimiento de una pieza pequeña de la imagen anterior a la imagen real.
7. El método de conformidad con la reivindicación 6, caracterizado porque la ejecución de la búsqueda de posición de entero comprende las etapas de: 1) colocar cada modelo en varias ubicaciones de posición de entero en el modelo de imagen y calcular una superficie para cada ubicación utilizando los criterios de igualación de bloque especificados; m) buscar una serie de regiones de modelo que tienen una región de búsqueda inicial centrada alrededor de una posición de modelo pronosticada derivada de una estimación del movimiento de una pieza pequeña de la imagen previa para la imagen real, tal búsqueda determina el tamaño y forma del modelo de imagen; n) terminar la búsqueda exitosamente si un mínimo es encontrado dentro de la región de búsqueda pronosticada; y o) terminar la búsqueda de posición de entero de manera no satisfactoria, si, después de varios intentos, no puede encontrarse un mínimo dentro de la región de búsqueda pronosticada y almacenar la información relativa a la búsqueda no exitosa de manera que el bloque pueda ser depurado posteriormente.
8. El método de conformidad con la reivindicación 7, caracterizado porque la búsqueda de posición de entero utiliza las técnicas de pronóstico lineal.
9. El método de conformidad con la reivindicación 7, caracterizado porque la búsqueda de posición de entero utiliza las técnicas de pronóstico de polinomio de segundo orden.
10. El método de conformidad con la reivindicación 7, caracterizado porque la superficie de error que indica las desigualdades entre el modelo de imagen y la imagen real en una región próxima a la posición de modelo determinada se calcula de acuerdo con la siguiente técnica de igualación de bloque: donde M representa el valor de desigualdad, N representa un cálculo de correlación normalizada, I representa los valores de pixel en la imagen real, y T representa los valores de pixel en el modelo de imagen.
11. El método de conformidad con la reivindicación 7, caracterizado porque la superficie de error que indica las desigualdades entre el modelo de imagen y la imagen real en una región próxima a la posición de modelo determinada se calcula de acuerdo con la siguiente técnica de igualación de bloque: donde M representa el valor de desigualdad, BA representa un cálculo de superficie de error, I representa los valores de pixel en la imagen real, y T representa los valores de pixel en el modelo de imagen.
12. El método de conformidad con la reivindicación 7, caracterizado porque la superficie de error que indica las desigualdades entre cada modelo de imagen y la imagen real en una región próxima a la posición de modelo determinada se calcula de acuerdo con la siguiente técnica de igualdad de bloque: M=l- Llnorm=l-?d donde M representa el valor de desigualdad, Ll norm representa el cálculo de superficie de error, y d representa la diferencia en valores de pixel entre el modelo de imagen y la imagen real.
13. El método de conformidad con la reivindicación 12, caracterizado porque la interpolación de pixel fraccionada utiliza un método de interpolación triangular.
14. El método de conformidad con la reivindicación 7, caracterizado porque la superficie de error que indica las desigualdades entre cada modelo de imagen y la imagen real en una región próxima a la posición de modelo determinada se calcula de acuerdo con la siguiente técnica de igualación de bloque: M=1- L2norm=1-?d2 donde M representa el valor de desigualdad, L2 norm representa un cálculo de superficie de error, y d representa la diferencia en valores de pixel entre el modelo de imagen y la imagen real.
15. El método de conformidad con la reivindicación 14, caracterizado porque la interpolación de pixel fraccionario utiliza un método de interpolación parabólico.
16. El método de conformidad con la reivindicación 7, caracterizado porque la interpolación de fracción de pixel fraccionario utiliza un método de interpolación de energía de tres mitades.
17. El método de conformidad con la reivindicación 7, caracterizado porque la evaluación de la superficie de error para determinar su valor mínimo a fin de determinar la mejor igualdad entre los modelos de imagen y la imagen real comprende las etapa de: p) expandir el modelo de imagen que produce los valores de posición de subpixel; y q) ejecutar una búsqueda de posición de entero adicional de acuerdo con la etapa (j) anterior en esas ubicaciones de subpixel.
18. El método de conformidad con la reivindicación 7, caracterizado porque la evaluación de la superficie de error para determinar su valor mínimo a fin de determinar la mejor igualdad entre los modelos de imagen y la imagen real comprende las etapas de: r) obtener valores de superficie de error próximos al valor mínimo determinado por la búsqueda de posición de entero de la etapa (j); s) interpolar un valor en la línea de exploración horizontal justo arriba de donde la búsqueda de posición de entero original determinó un mínimo, la interpolación llevada a cabo mediante un método unidimensional; t) interpolar un valor en la línea de exploración horizontal donde la búsqueda de posición de entero original determinó un mínimo, la interpolación llevada a cabo mediante un método unidimensional; u) interpolar un valor en la línea de exploración horizontal justo debajo de donde la búsqueda de posición de entero original determinó un mínimo, la interpolación se lleva a cabo mediante un método unidimensional; y v) interpolar los valores de las etapas (s) , (t) y (u) para determinar un valor mínimo final para tal superficie de error.
19. El método de conformidad con la reivindicación 7, caracterizado porque la evaluación de la superficie de error para determinar su valor mínimo a fin de determinar la mejor igualdad entre los modelos de imagen y la imagen real comprende la etapa de: w) interpolar la posición del mínimo utilizando un método de descomposición de valor individual.
20. El método de conformidad con la reivindicación 7, caracterizado porque el cálculo del modelo de transformación comprende las etapas de: x) fijar las ponderaciones horizontal y vertical para cada bloque dependiendo de la curvatura de la superficie de error; y) calcular un modelo de transformación preliminar utilizando un método de reducción de error cuadrático medio; z) evaluar cada bloque para el error espacial para determinar que tan bien concuerda con el modelo de transformación preliminar; aa) modificar las ponderaciones para cada bloque de acuerdo con el error espacial; y bb) calcular un modelo de transformación final utilizando las ponderaciones de bloque modificadas;
21. El método de conformidad con la reivindicación 7, caracterizado porque los criterios de retención de modelo requieren que los modelos de imagen, a fin de no ser depurados, no deben estar en un área de presión horizontal, no deben estar en una región de envejecimiento activa, deben concordar con el modelo de transformación real con respecto a la posición, y deben tener suficiente curvatura de la superficie de error.
22. El método de conformidad con la reivindicación 7, caracterizado porque comprende además las etapas de: ce) filtración de paso bajo y un submuestreo de los modelos de imagen obtenidos en la etapa (a) a fin de proporcionar una serie de modelos de imagen de menor resolución; dd) ejecutar una búsqueda de posición de entero sobre los modelos de imagen en cada nivel de resolución, iniciando con el nivel de resolución más bajo y continuando; ee) calcular un modelo de transformación en cada nivel de resolución a fin de pronosticar las posiciones de los modelos de imagen en el siguiente nivel superior.
MXPA/A/1999/004772A 1996-11-27 1999-05-21 Seguimiento del movimiento utilizando modelos de imagen-textura MXPA99004772A (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US60/031,883 1996-11-27

Publications (1)

Publication Number Publication Date
MXPA99004772A true MXPA99004772A (es) 2000-07-01

Family

ID=

Similar Documents

Publication Publication Date Title
US6529613B1 (en) Motion tracking using image-texture templates
US6741725B2 (en) Motion tracking using image-texture templates
US6504569B1 (en) 2-D extended image generation from 3-D data extracted from a video sequence
US5808695A (en) Method of tracking scene motion for live video insertion systems
US6084979A (en) Method for creating virtual reality
EP0509208B1 (en) Camera work detecting method
KR100271384B1 (ko) 패턴 키 삽입 기법을 이용하는 비디오 합성방법 및 장치
US9117310B2 (en) Virtual camera system
JP5249221B2 (ja) 画像から奥行きマップを決定する方法、奥行きマップを決定する装置
US20020164067A1 (en) Nearest neighbor edge selection from feature tracking
JPH02278387A (ja) 動かない背景を有するデイジタル像列内の動く対象物の検出および追跡のための方法
JP6683307B2 (ja) 多数のカメラを用いた最適の球形映像獲得方法
WO2012015563A1 (en) Video summarization using video frames from different perspectives
JP2000306108A (ja) オプティカルフロー推定方法
WO2006043258A2 (en) Dominant motion estimation for image sequence processing
JPH04345382A (ja) シーンチェンジ検出装置
JP2006527945A (ja) 3dモデルを使用するピクチャシーケンスの表現方法、対応する信号、および対応する装置
Swaminathan et al. Polycameras: Camera clusters for wide angle imaging
MXPA99004772A (es) Seguimiento del movimiento utilizando modelos de imagen-textura
JP2807137B2 (ja) 立体形状検出方法
GB2362793A (en) Image processing apparatus
CN117616760A (zh) 图像生成
TWI594209B (zh) 利用影片自動推導移動平台運動參數之方法
KR20210081215A (ko) 융합 영상 서비스 장치 및 이를 이용한 대상 영역의 실시간 2d 영상 정보를 3d 영상 정보에 매핑하는 방법
Swaminathan et al. Polycameras: camera clusters for wide angle imaging CUCS-013-99