[go: up one dir, main page]

MXPA99004800A - Inserción de imágenes en corrientes de video usando una combinación de sensores fisicos y reconocimiento de patron - Google Patents

Inserción de imágenes en corrientes de video usando una combinación de sensores fisicos y reconocimiento de patron

Info

Publication number
MXPA99004800A
MXPA99004800A MXPA/A/1999/004800A MX9904800A MXPA99004800A MX PA99004800 A MXPA99004800 A MX PA99004800A MX 9904800 A MX9904800 A MX 9904800A MX PA99004800 A MXPA99004800 A MX PA99004800A
Authority
MX
Mexico
Prior art keywords
camera
image
sensor information
video
camera sensor
Prior art date
Application number
MXPA/A/1999/004800A
Other languages
English (en)
Inventor
J Rosser Roy
Tan Yi
Kennedy Skip
Jeffers Jim
Dicicco Darrell
Gong Ximin
Original Assignee
Dicicco Darrell
Gong Ximin
Jeffers Jim
Kennedy Skip
Princeton Video Image Inc
J Rosser Roy
Tan Yi
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dicicco Darrell, Gong Ximin, Jeffers Jim, Kennedy Skip, Princeton Video Image Inc, J Rosser Roy, Tan Yi filed Critical Dicicco Darrell
Publication of MXPA99004800A publication Critical patent/MXPA99004800A/es

Links

Abstract

La presente invención se refiere a un sistema de inserción de vídeo en vivo en el cual una o más cámaras de eventos (110) incluyen sensores (113) para detectar el zoom, enfoque, vista en panorámica, y distorsión de imagen de la cámara. La información de sensor de cada cámara se proporciona a un sistema de inserción de vídeo en vivo para dar una indicación aproximada de dónde debería ocurrir una inserción en el escenario de vídeo. El sensor y la información de registro esencialmente reemplazan el modo de búsqueda de patrones convencionales de reconocimiento de sistemas de inserción de vídeo en vivo. Una determinación final exacta de una posición de inserción se determina usando análisis de textura y/o característica en la imagen de vídeo actual. Este análisis compara la posición de las características y/o textura dentro del cuadro de vídeo con su posición correspondiente en una imagen de referencia común o imagen previa de la inserción de posición y medio.

Description

INSERCIÓN DE IMÁGENES EN CORRIENTES DE VIDEO USANDO UNA COMBINACIÓN DE SENSORES FÍSICOS Y RECONOCIMIENTO DE PATRÓN Referencia Cruzada para las Solicitudes Relacionadas La presente solicitud está relacionada con y reclama el beneficio de la Solicitud Provisional de los Estados Unidos No. Serie 60/038,143 presentada el 27 de noviembre de 1996 titulada *IMAGE INSERTION IN VIDEO STREAMS USING A COMBINATION OF PHYSICAL SENSORS AND PATTERN RECOGNI ION".
La presente solicitud también está relacionada con las siguientes solicitudes copendientes de propiedad común: No. Serie 08/563,598 presentada el 28 de noviembre de 1995 titulada "SYSTEM AND METHOD FOR INSERTING STATIC AND DYNAMIC IMAGES INTO A LIVE VIDEO BROADCAST"; No. Serie 08/580,892 presentada el 29 de noviembre de 1995, titulada "METHOD OF TRACKING SCENE MOTION FOR LIVE VIDEO INSERTION SYSTEMS"; No. Serie 08/662,089 presentada el 12 de junio de 1996 titulada "SYSTEM AND METHOD OF REAL-TIME INSERTIONS INTO VIDEO USING ADAPTIVE OCCLUSION WITH A SYNTHETIC COMMON REFERENCE IMAGE"; y No. Serie 60/031,883 presentada el 27 de noviembre de 1996 titulada "CAMERA TRACKING USING PERSISTANT, SELECTED, IMAGE TEXTURE TEMPLATES". Las aplicaciones anteriores todas se incorporan aquí para referencia.
Esta invención esta relacionada con un sistema y método para seguir cuadros de imágenes para insertar señales realistas en imágenes de vídeo.
Los dispositivos electrónicos para insertar imágenes electrónicas en señales de vídeo en vivo como se describe en la Patente de los Estados Unidos No. 5,264,933 por Rosser, et al., se han desarrollado y usado para el propósito de insertar anuncios y otras señales en eventos de transmisión, principalmente en eventos deportivos. Estos dispositivos son capaces de incorporar logos realísticamente y sin uniones u otras señales en vídeo original en el tiempo real, aún a medida que la escena original se acerca, visualiza en panorámica, o de otra manera se altera en tamaño perspectivo. Otros ejemplos incluyen la Patente de los Estados Unidos No. 5,488,675 publicada por Hanna y la Patente de los Estados Unidos No. 5,491,517 publicada por Kreitman, et al .
Hacer que las señales insertadas parezcan como si actualmente están en la escena es un aspecto importante pero difícil de la implementación de la tecnología. Un aspecto problemático es que el ojo del televidente promedio es muy sensible a pequeños cambios en la posición relativa de objetos de campo a campo. Experimentalmente, se han encontrado instancias donde el movimiento relativo de un logo insertado de tan pequeño como es una décima de un pixel de una imagen de televisión NTSC es perceptible al televidente. Colocando, y consistentemente manteniendo a una alta precisión, una señal insertada en un medio de transmisión es crucial para que la tecnología de inserción de vídeo pueda ser viable comercialmente. Un medio de transmisión incluye el ruido de la imagen, la presencia de movimientos de cámara repentinos y rápidos, la ocurrencia de objetos movibles los cuales pueden obscurecer una fracción considerable de la imagen, distorsiones en la imagen debido a características del lente y cambiando los niveles de luz, inducidos ya sea por condiciones naturales o por ajustes de operador, y el entrelazado vertical de las señales de televisión.
En la técnica anterior, el seguimiento automático del movimiento de la imagen generalmente se ha logrado mediante dos métodos diferentes.
El primer método utiliza el reconocimiento de patrón de los cuadros y examina la imagen por sí sola y ya sea que siga puntos de referencia conocidos en la escena de vídeo, usando correlación o técnicas de diferencia, o calcula el movimiento usando técnicas bien conocidas de flujo óptico. Ver Horn, B.K.P. y Schunc , B.G., "Determining Optical Flow", Artifitial Intelligence, pp. 185-203 (1981) . Los puntos de referencia pueden ser transitorios o permanentes y pueden ser una parte natural de la escena o introducidos artificialmente. Un cambio en la forma y posición del punto de referencia se mide y usa para insertar las señales requeridas.
El segundo método, descrito, por ejemplo, en la Patente de los Estados Unidos No. 4,084,184 publicada por D. . Crain, usa sensores colocados en la cámara para proporcionar distancia focal, teniendo información de elevación. Estos sensores existen para proporcionar información de posición de puntos de referencia similares dentro de un campo de vista dado de la cámara.
Sistemas de Reconocimiento de Patrón En el tipo de reconocimiento de patrón de los sistemas dé inserción de imagen desarrollados por Rosser et al., por ejemplo, el sistema tiene dos modos distintos.
Primero es el modo de búsqueda en donde cada nuevo cuadro de vídeo en vivo se busca para poder detectar y verificar una imagen objetivo particular. Segundo es el modo de seguimiento, en el cual el sistema sabe que en el cuadro previo del video la imagen objetivo estuvo presente. El sistema además sabe la posición y orientación del cuadro previo con respecto a. algún sistema de coordinación de referencia predefinido. Las posiciones de imagen objetivo se siguen y actualizan con respecto al sistema de coordinación de referencia predefinida.
El modo de búsqueda incluye técnicas de reconocimiento de patrón para identificar ciertas imágenes. Obtener la posición vía reconocimiento de patrón, al contrario de usar sensores de cámara, proporciona flexibilidad significante del sistema porque permite la inserción de sistemas de vídeo en vivo para hacer una inserción en cualquier punto en la cadena de transmisión de vídeo. Por ejemplo, la inserción actual se puede lograr en un lugar central el cual recibe diferentes alimentaciones de vídeo de estadios o arenas alrededor del país o del mundo. Las alimentaciones diferentes se pueden recibir vía satélite o cable u otros medios conocidos en la técnica. Una vez que la inserción se adiciona, la alimentación de vídeo puede regresar vía satélite o cable al lugar de transmisión donde se originó, o directamente a los televidentes.
Dicha búsqueda de reconocimiento de patrón y sistemas de seguimiento, sin embargo, son difíciles de implementar para algunos eventos y son los elementos más vulnerables propensos a error durante la operación de sistemas de inserción de vídeo en vivo. En la presente, Princeton Video Image, Inc., ha ideado y programado una búsqueda contundente para muchos puntos de reunión y eventos como béisbol, fútbol, soccer y tenis. Sin embargo, el tiempo y costo para implementar algoritmos de búsqueda similares puede ser prohibitivo para otros tipos de eventos. La búsqueda de reconocimiento de patrón es difícil para eventos en los cuales grandes cambios en el aspecto de los puntos de reunión se hacen en horas o aún días antes del evento. Esto es debido a que una imagen de referencia común predefinida del punto de reunión es difícil de obtener ya que el aspecto del lugar no está permanentemente fijo. En tales casos un enfoque más contundente al problema de búsqueda es utilizar sensores fijados a una o más de las cámaras para obtener información de posición objetiva.
Sistemas de Sensores de Cámara La desventaja de confiar solamente en sistemas de sensores de cámara se detallan más adelante. En pruebas de campo con juegos de fútbol y béisbol televisados, sistemas previos encontraron los siguientes problemas importantes específicos. 1. Movimiento de cámara En un deporte típico, como es fútbol o béisbol, las tomas de acercamiento se toman con cámaras en longitud larga de enfoque operando a una distancia de hasta varios cientos de yardas de la acción. Ambos deportes tienen acción repentina, es decir, el patear o pegarle a una pelota, lo cual resulta en el cambio abrupto del juego de una escena tranquila a una acción de movimiento rápido. A medida que las cámaras de longitud larga de enfoque reaccionan a esta actividad, la imagen que registran despliega varias características las cuales hacen el seguimiento de movimiento más difícil. Por ejemplo, el movimiento de la imagen puede ser tan rápido como diez pixeles por campo. Esto caerá fuera del rango de sistemas que examina las ventanas de pixel que están a menos de 10 por 10 pixeles. Adicionalmente, las imágenes se pueden desenfocar y sufrir borrosidad severa de movimiento, de tal manera que una línea la cual en una imagen estática es de unas cuantos pixeles de ancho, se transforma en una línea borrosa de 10 pixeles de ancho. Esto quiere decir que un sistema que sigue una línea delgada, repentinamente no concuerda o hace presunciones como que el zoom ha cambiado cuando en realidad sólo ha ocurrido una vista panorámica rápida. Este movimiento borroso también causa cambios en el nivel de iluminación y color, al igual que en la textura del patrón, todos los cuales pueden ser problemas para sistemas que usan patrones basados en técnicas de procesamiento de imagen. El movimiento de la cámara, aún tan pequeño como dos campos, da como resultado cambios de imágenes abruptos en la geometría a gran escala y a escala local de una imagen. El nivel de iluminación y color de una imagen también se afecta por el movimiento de la cámara. 2. Objetos en movimiento Las escenas deportivas generalmente tienen un número de participantes, cuyo movimiento general sigue algún grado de predicción, pero que a cualquier hora pueden hacer algo repentinamente inesperado. Esto quiere decir que cualquier seguimiento de movimiento automático de un evento deportivo real tiene que ser capaz de enfrentar la oclusión inesperada y repentina de varias partes de la imagen. Además, la variedad de uniformes _y poses adoptadas por los jugadores en el transcurso del juego, quiere decir que intentos de seguir cualquier patrón puramente geométrico en la escena tiene que ser capaz de enfrentar un gran número de ocurrencias de patrones similares. 3. Distorsión del lente Todos los lentes de cámara prácticos exhiben algún grado de distorsión de lente geométrica lo cual cambia la posición relativa de objetos en una imagen como aquellos objetos que se mueven hacia el borde de una imagen. Cuando un décimo de exactitud de pixel se requiere, esto puede causar problema. 4. Ruido en la señal Las señales reales de televisión exhiben ruido, especialmente cuando las cámaras se amplifican electrónicamente para cubrir eventos de bajos niveles de luz, como es el béisbol de noche. Este ruido produce estragos con las técnicas de análisis de imagen las cuales se basan en el reconocimiento de correlación normalizada estándar, como esta concordancia de formas de patrón, sin considerar la fuerza de la señal. Debido a que las formas del ruido son aleatorias, en el curso de varios cientos de miles de campos de vídeo (o un juego típico de tres horas) , las oportunidades de confundir patrones de ruido por patrones reales puede ser un problema importante.
. Entrelazamiento de campo a campo Las imágenes de televisión, ambas en estándares NTSC y PAL se transmiten en dos campos entrelazados verticalmente los cuales juntos hacen un cuadro. Esto quiere decir que la televisión no es una sola corriente de imágenes, sino dos corrientes de imágenes estrechamente relacionadas pero sutilmente diferentes. El problema es particularmente notable cuando se ven líneas delgadas horizontales, lo cual puede ser muy evidente en un campo pero no en otro. 6. Cambios en color e iluminación Los juegos al aire libre son especialmente propensos a los cambios de color e iluminación. Típicamente, un juego de béisbol en una noche de verano empezará a la luz del día y terminará al anochecer. Un cambio de iluminación de un factor de más de dos es típico en dichas circunstancias. Además del cambio en el alumbrado natural a artificial cambia el color de los objetos en vista. Por ejemplo, en Pro Player Park en Florida las paredes parecen azules bajo el alumbrado natural pero verdes bajo el alumbrado artificial. 7. Diferencias en instalación Las cámaras tienden a ser instaladas con diferencias pequeñas pero detectables noche a noche. Por ejemplo, la distorsión de imagen de la cámara típicamente varía por más o menos un 1%, lo cual no es inmediatamente obvio al televidente. Sin embargo, esto representa más o menos 7 pixel y puede ser un problema para las plantillas típicas que miden 8 pixeles por 8 pixeles.
Las ventajas de los sensores de cámara incluyen la habilidad de razonablemente estar seguros de qué cámara está siendo usada y hacia dónde está apuntando y a qué ampliación la cámara esta viendo la imagen. Aunque puede haber inexactitudes en la información del sensor de la cámara debido a incertidumbres mecánicas inherentes, como es el desajuste del equipo, estas inexactitudes nunca serán grandes, un sistema de sensor de cámara, por ejemplo, no confundiría a un arbitro con un poste de portería o "pensaría" que una vista de acercamiento de un estadio es una vista en primera plano de la pared trasera. Tampoco nunca confundiría el movimiento de los objetos en el campo como movimiento de la cámara misma.
Lo que se necesita es un sistema que combine las ventajas de ambos, el sistema de reconocimiento de patrón y el sistema de sensor de cámara para buscar y seguir el movimiento de la escena mientras que elimina o minimiza las desventajas de cada uno. La dificultad principal para implementar un sistema de inserción híbrido de sensores de cámara/reconocimiento de patrón es la combinación y/o intercambio entre la información obtenida por los dos métodos completamente diferentes. Si no se hace correctamente, la combinación o intercambio da resultados inestables que se muestran como la imagen insertada moviéndose o vibrando dentro de la imagen total. Solucionando esta dificultad es crucial hacer trabajar un sistema híbrido suficientemente bien para obtener calidad de transmisión.
Breve Descripción de la Invención A manera de antecedente, un LVIS, o sistema de inserción de vídeo en vivo se describe en una solicitud de propiedad común No. de Serie 08/563,598 presentada el 28 de noviembre de 1995 titulada "SYSTEM AND METHOD FOR INSERTING STATIC AND DYNAMIC IMAGES INTO A LIVE VIDEO BROADCAST". Un LVIS es un sistema y método para insertar imágenes estáticas y dinámicas en una transmisión de vídeo en vivo en una manera realista en una base de tiempo real. Inicialmente, se seleccionan puntos de referencias naturales en un escenario que son adecuados para detección subsecuente y seguimiento. Los puntos de referencia preferentemente comprenden características descartadas, prominentes, y claramente verticales, horizontales, diagonales o de esquina dentro del escenario visible a la cámara de vídeo a medida que visualiza en panorámica y acerca. Típicamente, por lo menos tres o más puntos de referencia naturales se seleccionan. Se entiende que los puntos de referencia se distribuyen a través de todo el escenario, como es un parque de béisbol o estadio de fútbol, y que el campo de vista de la cámara en cualquier instante es normal y significantemente más pequeño que la escena que se puede visualizar en panorámica. Los puntos de referencia muy a menudo se localizan fuera del punto o área donde el inserto se colocará debido a que el área de inserción es típicamente más pequeña para incluir puntos de referencias identificables y la imagen insertable puede ser una dinámica y, por lo tanto, tiene un solo destino u objetivo estacionario.
El sistema modela los puntos de referencia naturales reconocibles en una rejilla deformable bidimensional. Un punto de referencia arbitrario se escoge dentro del escenario. El punto de referencia matemáticamente se asocia con los puntos de referencia naturales y subsecuentemente se usa para localizar el área de inserción.
Antes del proceso de inserción, la labor artística de la imagen que será insertada se ajusta para su perspectiva, es decir, forma. Debido a que el sistema conoce la relación matemática entre los puntos de referencia en el escenario, puede automáticamente determinar el factor de acercamiento y el ajuste de posición X, Y que debe ser aplicado. Después de esto, cuando la cámara se acerca hacia adentro y hacia afuera y cambia su campo de vista a medida que visualiza en panorámica, la imagen insertable permanece apropiadamente en la escala y proporcionada con respecto a otras características en el campo de vista para que parezca natural ante el televidente en casa. El sistema puede paralizar hacia adentro y hacia afuera una escena y hacer que una imagen insertable naturalmente aparezca en escena en vez que aparezca "de repente" como ha sido el caso con algunos sistemas de técnica anterior. El sistema puede fácilmente colocar unas imagen insertable en cualquier lugar.
La presente invención es un sistema de inserción de vídeo en vivo híbrido (LVIS) que usa una combinación de técnicas de reconocimiento de patrón anteriormente descritas al igual que otras de información de sensor de cámara para localizar, verificar y seguir información objetiva. Los sensores de cámara están bien adecuados a los requerimientos de búsqueda y retención, es decir reconocimiento de un LVIS mientras que las técnicas de reconocimiento de patrón y de seguimientos de referencia, incluyendo la solicitud provisional copendiente No. Serie 60/031,883 presentada el 27 de noviembre de 1996 titulada "CAMERA TRACKING USING PERSISTANT, SELECTED, IMAGE TEXTURE TEMPLATES", están mejor adecuadas para los requerimientos de seguimiento de imagen de un LVIS.
El concepto detrás de la presente invención es combinar la información de sensor de cámara y la tecnología de patrón óptica par que el análisis de la imagen de vídeo estabilice y refine la información de sensor de cámara. Esta estabilización y refinamiento se puede hacer sustituyendo la información de sensor de cámara para los esquemas de predicción usados por los sistemas estándares LVIS para buscar y seguir la información de puntos de referencia, o usando la información de sensor de cámara, como aún otro conjunto de puntos de referencia, con fusión de paso apropiado, en el cálculo modelo realizado por los sistemas estándares LVIS. Una vez que los sensores de cámara han adquirido la información requerida correspondiente a los puntos de referencia en el escenario, la información se convierte a un formato que es compatible con y utilizable por las funciones de seguimiento del estándar LVTS y el resto del proceso de inserción se lleva a cabo normalmente.
De algún modo la presente invención toma ventaja de la información de sensor de cámara para proporcionar el LVIS con capacidad de búsqueda contundente independiente de los detalles del lugar del evento. Por otra parte, muchas de las desventajas que pertenecen al sistema de sensor de cámara como fueron descritas anteriormente se solucionan.
La presente invención comprende un LVIS típico en el cual una o más cámaras de evento incluyen sensores para percibir el acercamiento y enfoque del lente y la vista panorámica y distorsión de imagen de la cámara con respecto a una plataforma fija. Para las cámaras en lugares inestables, se incluyen sensores adicionales, los cuales incluyen el movimiento de la plataforma sustancialmente fija con respecto a una referencia de estadio más estable. Para cámaras portátiles o móviles, aún otro conjunto de sensores incluye para medir la posición de la cámara y la orientación con respecto a un conjunto predeterminado de posiciones de referencia. La información del sensor de cada cámara, a lo largo de la información de registro del interruptor de producción, si es necesario, se usa por el LVIS para buscar y detectarla información de punto de referencia a y por lo tanto proporcionar una indicación aproximada de dónde deberá ocurrir una inserción en la imagen actual. La información de registro toma la forma de una señal electrónica que indica qué cámara o fuente de vídeo está saliendo como alimentación de programa por el interruptor de vídeo.
Los sensores y la información de registro esencialmente reemplazan el modo de búsqueda de un sistema de inserción de vídeo en vivo de reconocimiento de patrones convencional . Una determinación final exacta de un lugar de inserción se determina usando el análisis de textura y/o característica en la imagen de vídeo actual. El análisis compara la posición de las características y/o texturas dentro del cuadro de vídeo a su posición correspondiente en una imagen de referencia común o imagen previa de la posición de inserción y alrededores como se describen en las solicitudes copendientes 08/580, 892 presentada el 29 de diciembre de 1995 titulada "METHOD OF TRACKING SCENE MOTION FOR LIVE VIDEO INSERTION SYSTEMS" y 60/031,833 presentada el 27 de noviembre de 1996 titulada "CAMERA TRACKING USING PERSISTANT, SELECTED, IMAGE TEXTURE TEMPLATES".
Breve Descripción de los Dibujos La Figura 1 es una representación esquemática que muestra una imagen de vídeo de referencia de un escenario.
La Figura 2 es una representación esquemática que muestra una imagen de vídeo en vivo de la imagen de vídeo de referencia en la Figura 1.
La Figura 3 es una tabla que ilustra los elementos de una representación típica de una gama de referencia.
La Figura 4 ilustra una representación esquemática de un número de campo contra una posición de imagen de un campo de vídeo entrelazado.
La Figura 5a ilustra una vista en corte transversal de una plantilla de medio borde nula.
La Figura 5b ilustra una vista en planta de una plantilla de medio borde nula.
La Figura 6 ilustra una superficie de correlación, La Figura 7 ilustra una posición medida y predicha en una superficie.
La Figura 8 ilustra un diagrama de flujo esquemático de cómo la jerarquía de código, referencia y seguimiento de la gama de referencias se usa para manejar una gama de referencia adaptable. (a) Carga inicial. (b) Referencias: seguimiento = juego = código. (c) Tiempo de rodaje. (d) Si de pierde. (e) Modo de búsqueda (f)Usar tabla de Referencia de juego. (g) Otro. (h) Si la búsqueda encontrada algunas veces necesita confirmación . (i) Modo de verificación. (j) Usar tabla de referencia de juego. (k) Otro. (1) Si verificación ha confirmado la búsqueda. (m) Modo de seguimiento. (n) Usar tabla de referencia de seguimiento. Inicialmente seguimiento=juego. Actualizar seguimiento después de 10 campos . (ñ) Si lo requiere el operador. (o) reajustar referencias: seguimiento = juego = código. (p) Fijar juego = referencia de seguimiento.
La Figura 9 ilustra una vista esquemática de los puntos de referencia y sus puntos de sensor asociados usados para la oclusión basada en color.
La Figura 10 es una representación esquemática de la transmisión de un evento usando una combinación de sensores de cámara y sistemas de seguimiento de imagen.
La Figura 11 es un diagrama de bloque que describe el sistema de la presente invención en el cual la información de cámara se usa para predecir la posición del punto de referencia (Ver anexo de referencia de diagramas) . (a) Adquirir información de cámara: Zoo , enfoque, distorsión de imagen, vista panorámica usando sensores montados en la cámara. (b) Convertir información en bruto de cámara a un formato adecuado para la transmisión, estos puede ser A/B y codificación (c) Transmitir información de cámara al L-VIS (tm) y codificador. (d) Convertir información de cámara a una forma a fin (Z,F, T,P a Z, Tx, Ty rotación). (e) Usar la información convertida de cámara para predecir donde puntos de referencia detectados en campos previos aparecerán en el campo actual . (f) Adquirir información del registro del interruptor. (g) Adquirir información de video proveniente de cámara. (h) Convertir el campo de video a forma digital. (i) Realizar correlaciones para detectar posiciones de puntos de referencia centrados en posiciones indicadas por la información de sensor de cámara. (j) Usar ajuste medio cuadrático mínimo pesado para todos los puntos de referencia para proporcionar un modelo que se relaciona de un campo actual a un campo de referencia. (k) Usar modelo para el procesamiento e inserción de oclusión del logo de publicidad La Figura 12 es un diagrama de bloque que describe el sistema de la presente invención en el cual la información de cámara se usa para proporcionar puntos de referencia "virtuales" extra apropiadamente pesados para compensar los errores de información de cámara (Ver anexo de referencia de diagramas) . (a) Adquirir información de cámara: Zoom, enfoque, distorsión de imagen, vista panorámica usando sensores montados en la cámara. (b) Convertir información en bruto de cámara a un formato adecuado para la transmisión, estos puede ser A/B y codificación (c) Transmitir información de cámara al L-VIS (tm) y codificador. (d) Convertir información de cámara a una forma a fin (Z,F, T,P a Z, Tx, Ty rotación). (e) Usar información convertida de cámara para proporcionar punto de referencia "virtuales" extra con pesos aproximados a los errores de información de cámara (f) Adquirir información del registro del interruptor. (g) Adquirir información de video proveniente de cámara. (h) Convertir el campo de video a forma digital. (i) Realizar correlaciones para detectar puntos de referencias centrados en posiciones predecidas. (j) Usar ajuste medio cuadrático mínimo pesado para todos los puntos de referencia para proporcionar un modelo que se relaciona de un campo actual a un campo de referencia. (k) Usar modelo para el procesamiento e inserción de oclusión del logo de publicidad.
La Figura 13 ilustra una cámara ajustada con sensores de vista panorámica, distorsión de imagen, acercamiento y enfoque.
La Figura 14 ilustra una representación de la salida de información de un sensor codificado ópticamente.
La Figura 15 ilustra la relación entre la transición del seguimiento del sensor A, el estado del seguimiento del sensor B y la dirección de rotación, en sentido de las manecillas del reloj (CW) o en sentido contrario al de las manecillas del reloj (CCW) , del sensor.
La Figura 16 ilustra una imagen de referencia común tomada de una imagen de transmisión.
La Figura 17 ilustra un diagrama del Zoom (ampliación de la imagen) en contra de Z (el número de cuenta de las contrafijadas al manejador del elemento de lente zoom) con el elemento de enfoque del lente mantenido en la posición estacionaria. Otros tres diagramas se superponen sobre este Zoom en contra del diagrama Z. Las tres superposiciones son diagramas de Zoom (ampliación de imagen) en contra de F (el número de cuenta de las contrafijadas al manejador de elemento de enfoque del lente del Zoom) entre lugares fijos diferentes y distintos de Z (las cuentas del manejador de elemento zoom) .
La Figura 18 ilustra una cámara acondicionada con acelerómetros (sensores) para detectar el -movimiento de la cámara .
La Figura 19 ilustra tres estaciones de recepción fija usadas para seguir el movimiento de una cámara móvil acondicionada con un transmisor.
La Figura 20 ilustra una situación de transmisión en la cual la cámara y el objeto de interés al evento, como es una pelota de tenis ambos se acondicionan con transmisores .
Descripción Detallada de las Modalidades Preferidas Durante el curso de esta descripción, números similares se usaran para identificar elementos similares de acuerdo con las diferentes figuras que ilustran la invención.
El método de seguimiento y detección/búsqueda estándar LVIS, como se describió en la No. Serie 08/580,892 presentada el 29 de diciembre de 1995, titulada "METHOD OF TRANCKING SCENE MOTION FOR LIVE VIDEO INSERTION SYSTEMS", se usa en correlación de plantilla con plantillas insensibles al zoom, como bordes, para seguir un grupo de puntos de referencia pre-designados o algún subconjunto de un grupo dentro de algún escenario. La correlación de plantilla de puntos de referencia proporciona información de posición al natural usada para seguir el movimiento de un escenario.
Típicamente, los puntos de referencia que se usan pueden ser parte de la estructura en un parque de pelota o marcas en un campo de juego. Crear una fórmula matemática ideal en el escenario que se va a seguir es una parte clave del algoritmo de seguimiento. Esta representación matemática ideal se refiere como la gama de referencia y simplemente es una tabla de valores de coordenadas x, y. El término "imagen" asociado con la gama es de conveniencia para el operador. Las imágenes actuales de escena se relacionan a esta gama de referencia por un conjunto de parámetros de trama los cuales definen la transformación matemática que localiza los puntos en la escena actual a los puntos correspondientes en la gama de referencia. En el simple caso en el cual la rotación se ignora o se mantiene constante la imagen actual se localiza en la gama de referencia como sigue: x ' a + bx y'= d. +hy en donde x' y y' son las coordenadas de un punto de referencia en el escenario actual, x y y son las coordenadas del mismo punto de referencia en la gama de referencia y b es la ampliación entre la gama de referencia y la escena actual, a es la translación en la dirección x y d es la traslación en la dirección y entre la gama de referencia y la escena actual .
La esencia del seguimiento jerárquico geográfico adaptable es poner más atención a los puntos de referencia que se encuentran en o cerca de sus posiciones derivadas de modelo anticipado .
El primer paso es obtener un esquema de predicción de velocidad exacto para localizar la posición derivada de modelo anticipado. Dicho esquema calcula, mediante los parámetros de trama del escenario o campo previo, donde los puntos de referencia en la imagen actual deberían estar. La dificultad principal con la predicción de velocidad en el vídeo entrelazado es que de campo a campo parece que hay un componente de pixel y en el movimiento. La presente invención maneja esto usando la posición del campo similar previo, y el movimiento de la diferencia entre los dos últimos campos no similares.
Habiendo predicho dónde en la imagen actual deberían estar los puntos de referencia, las correlaciones de plantillas sobre una región de 15 por 15 pixeles entonces se realiza centrándose en esta posición predicha. Estos patrones de correlación entonces se buscan del centro hacia afuera buscando la primera concordancia que excede un criterio de umbral. Por otra parte, cada punto de referencia tiene una función de peso cuyo valor es inversamente proporcional a la distancia en la cual el punto de referencia está lejos de su posición derivada de modelo anticipado. Cuando se calcula el nuevo parámetro de trama para el escenario actual, cada posición actual del punto de referencia se usa pesado para esta función. Esto da más énfasis a los puntos de referencia que están más cercanos a sus posiciones predichas.
Otro paso, necesario para compensar la dispersión de la cámara a medida que el escenario se mueve, es dinámicamente actualizar las coordenadas de gama de referencia de los puntos de referencia basados en sus posiciones actuales. Esta actualización se hace solamente en buenos puntos de referencia, y pesa por sí sola por el error de distancia de función de pesado. Esta gama de referencia adaptable permite el seguimiento muy exacto de puntos de referencia aún a medida que pasan a través de lentes y distorsiones de perspectiva. El peligro en tener una gama de referencia adaptable es que se puede contaminar. Este peligro se mitiga teniendo tres conjuntos de coordenadas de referencia, a las cuales se les refiere como coordenadas de referencia de seguimiento, juego y código. Cuando el sistema se carga inicialmente, las coordenadas de referencia de código se fijan a las coordenadas de referencia originales. Las coordenadas de seguimiento y juego inicialmente se fijan igual a las coordenadas de referencia de código. Una vez que el sistema localiza un escenario y empieza a seguirlo, se usan las coordenadas de seguimiento. Sin embargo, cada vez que un corte de escenario ocurre, las coordenadas de seguimiento automáticamente se establecen a las coordenadas de referencia de juego. A cualquier hora, el operador puede escoger fijar las coordenadas de seguimiento actuales iguales a las coordenadas de referencia de juego o fijar las coordenadas de referencia de juego de regreso con las coordenadas de referencia de código. Este esquema permite la actualización de referencia adaptable con la capacidad rebasada del operador.
El elemento final en el esquema de seguimiento es un método para determinar cuando un punto de referencia se oscurece por algún objeto, como para evitar información defectuosa en el sistema. Un método de oclusión basado en color se usa, en el cual un conjunto de puntos de sensores en un patrón alrededor del cual un punto de referencia se examina y si se encuentran diferentes a aquellos colores esperados en aquellas regiones, el punto de referencia se valora como ocluido y no se usa en los cálculos siguientes. Los puntos de sensores de buenos puntos de referencia se usan para actualizar los valores de referencia para colores esperados de los puntos de sensores para que el sistema pueda acomodar las condiciones cambiantes como es el cambio gradual de luz de día a luz artificial durante el curso de una transmisión.
Esta estrategia de seguimiento jerárquico adaptable ha probado ser un medio de alta precisión y seguimiento contundente de puntos de referencia dentro de secuencias de vídeo aún en medios mundiales reales ruidosos de transmisión de televisión en vivo.
Haciendo referencia a la Figura 1, el seguimiento de movimiento de las imágenes de vídeo el cual permite la inserción sin uniones como se practica por esta invención, empieza con una gama de referencia 10 de una escena en la cual inserciones se colocan. Aunque el tener una imagen actual es una ayuda mental útil, esta gama de referencias no es mas que un conjunto de valores de coordenadas x, y idealizados los cuales representan la posición de un número de conjuntos de puntos de referencia claves 16 y 18 dentro de la gama de referencia 10. Una tabla típica se muestra en la figura 3, ilustrando el listado de x, o coordenadas horizontales 31, y el de y, o las posiciones de la coordenada vertical 33. Las posiciones 31 y 33 de los conjuntos de puntos de referencia clave 16 y 18 se usan ambos como referencias en contra de un movimiento el cual se puede mover y en relación a qué inserción se puede colocar. Una gama de referencias típica 10 de una escenario de béisbol desde una cámara colocada en el campo central consistirá de las localizaciones de características como el montículo del pitcher 12, la pared trasera 14, las líneas verticales 15 entre las bases las cuales hacen la pared trasera 14, y la línea horizontal 17 entre la pared trasera y el campo de juego en el cual el conjunto horizontal de puntos de referencia 18 se fijan.
La imagen actual o escena 20 es el campo de una secuencia de vídeo la cual está actualmente siendo considerada. Las posiciones de las características clave o conjuntos de puntos de referencia 16 y 18 de la gama de referencia 10 también se indican en una imagen actual 20 como posiciones medidas 26 y 28. Las posiciones medidas 26 y 28 están relacionadas con localizaciones de puntos de referencia de gamas de referencia correspondientes a los conjuntos 16 y 18 por un conjunto de parámetros de trama los cuales definen una transformación matemática que más exactamente localiza la posición de los puntos en la imagen actual 20 a la posición de los puntos en la gama de referencia 10. Dicha localización se conoce muy bien matemáticamente. Ver "Geometrical Image Modification in Digital Image Processing", W.K. Pratt 2a. Edición 1991, John Wiley e Hijos ISBN 0-471-85766.
El seguimiento de una vista desde una cámara de televisión fija, especialmente una con una longitud larga de enfoque razonable como es en la mayoría de los casos de los eventos deportivos, se puede entender como la localización de una superficie bidimensional a otra superficie bidimensional. Una transformación matemática general que logra dicha localización que permite que haya una traslación, zoom, movimiento, y rotación de imagen a imagen se da por el siguiente modelo de seis parámetros: x ' a + bx + cy y d +ex + fy en donde x y y son coordenadas con referencia a la gama 10, x' y y' son las coordenadas transformadas en la imagen actual 20, a es la traslación de la imagen en la dirección x, b es la amplificación de la imagen en la dirección x c es una combinación de la rotación, e inclinación en la dirección x, d es la traslación de la imagen en la dirección y, e es una combinación de la rotación, la inclinación en la dirección y, y f es la amplificación de la imagen en la dirección Los algoritmos de seguimiento y métodos discutidos aquí se pueden usar con la transformación anterior al igual que con otras transformaciones más generales. Sin embargo, la experiencia ha mostrado que con una gama de referencias dinámicamente actualizadas, una función de seguimiento x, y más simple la cual presume que no vaya a ver movimiento o rotación será suficiente. De este modo, en el caso simple en el cual la rotación se ignora o se mantiene constante (c=e=0) y la ampliación en las direcciones x y y es la misma (b=f) la posición de los puntos en la imagen actual 20 se localizan a la posición de los puntos en la gama de referencia 10 usando las siguientes ecuaciones: x ' a + bx y d + by en donde x' y y' son coordenadas de un punto de referencia en la imagen actual 20, x y y son coordenadas del mismo punto de referencia en la gama de referencias 10, b es la ampliación entre la gama de referencia 10 y la imagen actual 20, a es la translación en la dirección x, y d es la traslación en la dirección y. Este esquema de localización simplificado se usa porque la experiencia ha mostrado que es tanto contundente como capaz de manejar el movimiento limitado, rotación, y distorsión perspectiva presente en la transmisión de deportes por televisión cuando se usa una gama de referencia dinámicamente actualizada.
El seguimiento del movimiento es el método para medir las posiciones de los conjuntos de puntos de referencia 26 y 28 en la imagen actual 20 y usando estas medidas para calcular los parámetros de trama a, d y b, como se definieron por las ecuaciones anteriores. Una parte importante del seguimiento jerárquico geográfico adaptable es el concepto de asignar un peso a cada punto de referencia. Los pesos se asignan en proporción inversa, de acuerdo con la distancia a la cual es detectada cada punto de referencia lejos de donde se espera o predice que va a suceder. Mientras más cerca esté el punto de referencia a donde se predice que va a ser, mucho más peso se le da al punto de referencia en el cálculo de los parámetros de trama que unen las posiciones en la imagen actual 20 a las posiciones en la gama de referencia 10.
El primer paso es predecir dónde los puntos de referencia 26 y 28 deberán estar en la imagen actual 20. Esto se hace analizando las posiciones de los puntos de referencia en tres campos previos. La posición previa y la velocidad de un punto de referencia derivado del modelo previo se usa para estimar dónde aparecerá el punto de referencia en la imagen actual 20. Los cálculos de posición y velocidad son complejos, en ambos los métodos estándar actuales de transmisión de televisión, NTSC y PAL, se mandan en dos campos verticalmente entrelazados. De este modo, exploraciones horizontales alternativas se incluyen en campos separados, usualmente se les refiere como campos pares y nones. En el sistema NTSC, cada campo se manda en l/60th de segundo (16.6 microsegundos), haciendo un solo cuadro combinado cada 1/3Oth de un segundo.
Una consideración práctica importante en los cálculos de velocidad es que los cálculos x y y en los campos previos (-1, -2 y -3) que se usan en "los cálculos de velocidad no son las posiciones medidas, sino las posiciones calculadas que usan los parámetros de trama final derivados en cada uno de esos campos. Esto es, en cada campo, las posiciones x y y se miden para cada punto de referencia. Todos los puntos de referencia entonces se usan para derivar un solo conjunto de parámetros trama a, b y d dando la localización entre la gama de referencia y la actual. Este solo conjunto de parámetros de trama entonces se usa para proyectar las coordenadas de gama de referencia 10 hacia la imagen actual 20, dando un conjunto idealizado de posiciones de puntos de referencia en la imagen actual. Esto es un conjunto idealizado de las posiciones de los puntos de referencia en cada campo, a los cuales se les refiere como posiciones derivadas del modelo, que se usan en las predicciones de velocidad.
Como se ilustra en la Figura 4, la posición actual vertical y o de un punto de referencia se predice de los tres campos previos. La posición y en el campo actual (campo 0) se predice midiendo el componente y de velocidad como la diferencia entre la posición derivada del modelo de punto de referencia en el campo -1 y el campo -3, los cuales son campos "similares" en que ambos son ya sea pares o nones. El componente de velocidad y entonces se adiciona al modelo derivado de la posición y en el campo -2, el cual es el campo previo "similar" al campo actual, para llegar al calculado de dónde encontrar el punto de referencia en el campo actual.
La predicción en la dirección x puede usar el mismo algoritmo o, ya que no hay entrelazado, el cálculo de la dirección x puede ser más simple y levemente más actual. El esquema más simple, el componente x de la velocidad se calcula, por la diferencia entre la posición derivada del modelo de punto de referencia en el campo -1 y su posición derivada del modelo en el campo -2. Esta diferencia entonces se adiciona en la posición derivada del modelo en el campo -1 para llegar a un cálculo de dónde encontrar ese punto de referencia en el campo actual.
Habiendo predicho la posición más probable de todos los puntos de referencia en la imagen actual, las posiciones de los puntos de referencia entonces se encuentran haciendo una correlación de una plantilla de 8 por 8 pixeles sobre una región de 15 por 15 pixeles centrada en la posición predicha. La correlación o la concordancia de plantillas es una técnica bien conocida, y en su forma estándar es uno de los medios más fundamentales de detección de objetos. Ver, Capítulo 20, "Image Detection and Recognition of Digital Image Processing" por W.K. Pratt (2a Edición, 1991, John Wiley e Hijos, ISBN 0-471-85766) . A diferencia de los métodos más estándares de correlación o de concordancia de plantillas en los cuales la plantilla se hace para parecerse más cercanamente a parte del escenario el cual está siendo usado para encontrar, las plantillas en la presente invención son sintéticas, idealizadas ambas en forma de valor, y tienen "medio nulo".
Por ejemplo, en el seguimiento de un poste vertical de portería de fútbol, en vez de usar una porción de poste de la portería tomada de la imagen, la plantilla 54 se usa en un borde de valor uniforme hecho de una línea dirigida negativa 56 y una línea dirigida positiva 58, y la suma de los valores en La plantilla 8 por 8 es igual a cero como se muestra esquemáticamente en corte transversal en la Figura 5a y en vista en planta en la Figura 5b.
Esta plantilla tienen las ventajas de ser independiente del zoom y dará un valor cero en una superficie de brillantez uniforme. La técnica no se limita a plantillas de 8 por 8 pixeles, ni en la región sobre la cual están correlacionadamente limitadas a regiones de 15 por 15 pixeles. Además, esta técnica no se limita tampoco a plantillas de medios cero. En circunstancias donde solo líneas y bordes horizontales y verticales se siguen es posible reducir el cálculo teniendo superficies de correlación (1 x n) para seguir el detalle horizontal, y superficies de correlación (n x 1) para seguir el detalle vertical donde n es un número razonable, usualmente en el rango de 5-50 pixeles.
La plantilla de borde de medios cero idealizada 54 se correlaciona sobre una región de 15 por 15 pixeles de imagen actual o una replica diezmada y filtrada, un poco amplificada de ella para producir una superficie de correlación 60 como se muestra esquemáticamente en la figura 6. Esta superficie de correlación 60 consiste de una gama de 15 por 15 pixeles cuya brillantez corresponde a la correlación de imagen en contra de la plantilla cuando se centra en esa posición. Típicamente, una plantilla de borde 54 correlacionada sobre una región de una imagen que contiene una línea dará a ambos una respuesta de línea progresiva positiva 66, indicando una buena concordancia y una línea progresiva negativa correspondiente 67, indicando que no hubo concordancia. Esta línea no concordante 67 puede ser útil en que su posición y distancia lejos de la línea de concordancia progresiva positiva 66 da una medida del ancho de la línea y ya sea que esté más brillante o más obscura que el medio. Además, habrá otros pixeles brillantes 68 en la superficie de correlación 60 que corresponden a características en forma de borde brillante en la imagen actual.
Un principio de guía del método de seguimiento jerárquico geográfico adaptable es enfocarse en los puntos de referencia y los picos de correlación que indican los puntos de referencia potenciales que están más cercanos a donde se espera que van a suceder. En vez de solamente buscar un pico en cualquier superficie de correlación de 15 por 15 60, estos patrones, se buscan desde el centro hacia afuera. La forma más simple, y más efectiva, de hacer esto es primero ver los valores centrales de nueve pixel en la región central de 3 por 3 pixel 64. Si cualquiera de estos pixel tiene un valor de correlación mayor que un umbral, entonces se presume que el pixel representa el punto de referencia que se está buscando y no se hace más investigación de la superficie de correlación. El umbral es usualmente cincuenta por ciento de la correlación anticipada del punto de referencia usual. Esta búsqueda inicial de 3 por 3 permite el seguimiento del movimiento aún en la presencia de objetos cercanos que por su brillantes o forma puedan confundir la correlación de punto de referencia, como es cuando el pixel marcado 68 ha sido más brillante que los pixeles en la línea 66. Una vez que el pixel con el pico de brillantez 50, un cálculo de la posición subpixel se encuentra usando el método conocido de reconstruir un triángulo como se describe en la Patente de los Estados Unidos copendiente No. de Solicitud 08/381,088. Existen otros método de cálculo de posición de subpixel que se pueden usar como es ajustar curvas de orden más alto a la información.
Además, cada punto de referencia encontrado en un escenario tiene un peso de error asociado con sí mismo basado en la distancia de donde se espera que va a aparecer. Haciendo ahora referencia a la Figura 7, el cálculo de este peso de error se basa en la posición predicha en la imagen 70, en las coordenadas xp, yp y la posición medida en la imagen 72, en las coordenadas xm, ym, usando la ecuación general : Peso de Error en donde g, h, i, j, k y 1 son constantes numéricas escogidas para variar la fuerza de la función de peso.
En la modalidad preferida, los parámetros de ecuación son: LO Peso de Error — LO+dxp-xmf +iyp-ym f 2 ) .O aunque en circunstancias especiales, cada uno de los parámetros puede tener un valor diferente para cambiar el énfasis del peso, por ejemplo, las constantes numéricas i y j pueden variar para proporcionar funciones las cuales permanecen constantes por una distancia corta y luego caen rápidamente .
Este peso de error entonces se usa en el cálculo de los parámetros de trama los cuales localizan los puntos en la imagen actual 20 a las posiciones en la gama de referencia . En la modalidad preferida, este cálculo es un ajuste medio cuadrático mínimo pesado que usa la siguiente matriz: '?(CJ • CI)S(nx» Cl)S/t.yCl) ?(nx * Cl) ?(nx • nx) ?(nx • ny) ?/ny • Cl) ? nx * ny) ?(tty • ny) en donde Cl ~.zx«Peso de Errofxp +/ty»Pesß> de Error * yp C2 ™/i?-*Peso de Error»-cw+rt.v*Peso de Et_ro?*y En el caso de los puntos de referencia totalmente horizontales, nx=0 y ny=l y en el caso de puntos de referencia totalmente verticales nx=l y ny=0. En el caso más general, nx y ny son los cosenos de dirección de vectores que representan el normal de la dirección predominante de los puntos de referencia.
La parte adaptable del esquema de seguimiento de movimiento es necesario para permitir la distorsión de la cámara. También permite al sistema compensar pequeñas discrepancias entre la gama de referencia idealizada almacenada y el escenario actual al igual que permitir al sistema manejar pequeñas rotaciones lentas y/o movimientos. También permite al sistema manejar cualquier distorsión pequeña y que ocurre lentamente. Esta adaptación se hace actualizando dinámicamente las coordenadas de la gama de referencia basadas en sus posiciones actuales. En la presente invención la parte adaptable del seguimiento de movimiento se hace estable mediante el siguiente criterio: 1) tener mucho cuidado cuando se permite que ocurra; 2) escoger qué puntos de referencia se permiten para participar basados en cuan confidente es el sistema en que dichos puntos de referencia son buenos; y 3) tener todo el cálculo muy bien pesado por la función de distancia de peso de error. Además, la gama de referencia se reajusta después de cualquier corte de escena.
En la modalidad preferida la actualización dinámica de las coordenadas de referencia se empieza después de seis campos de seguimiento y solamente se hace en puntos de referencia los cuales no se han señalado por ninguna revisión de oclusión y tienen valores de correlación mayores a 20% y menos de 200% de los valores de referencia esperados, aunque diferentes valores se pueden usar para todos estos parámetros .
Estas posiciones de puntos de referencia medidos se proyectan de regreso a las posiciones en la gama de referencia usando los parámetros de trama calculados por todos los buenos puntos de referencia en el campo actual usando las ecuaciones: Xnr= (Xm-a) /b Ynr= (Ym-d) /b Xr=Xor + (Peso de error) (Xnr-Xor) Yr=Yor + (Peso de error) 2 (Ynr-Yor) en donde Xm es la coordenada x medida del punto de referencia, Ym es la coordenada y medida del punto de referencia, a es el parámetro de trama de translación horizontal, d es el parámetro de trama de traslación vertical, b es el parámetro de trama de ampliación, Xnr es la coordenada x calculada de un nuevo punto de referencia propuesto basado en la información del campo, Ynr es la coordenada y calculada de un nuevo punto de referencia propuesto basado en la información del campo, XOr es la coordenada x del punto de referencia anterior a la actualización, YOr es la coordenada y de punto de referencia anterior a la actualización, Xr es la coordenada x que se pone en la tabla como nuevo punto de referencia, y Yr es la coordenada y que se pone en la tabla como nuevo punto de referencia.
También es posible usar gamas de referencia de seguimiento separadas para campos pares y nones para mejorar el rendimiento de seguimiento con el vídeo entrelazado. Debido a la naturaleza potencialmente inestable de la gama de referencia adaptable, la modalidad preferida tiene tres gamas de referencia relacionadas, y se les refiere como: REFERENCIA DE CÓDIGO, REFERENCIA DE JUEGO y REFERENCIA DE SEGIMIENTO.
El diagrama de flujo esquemático en la_ Figura 8 ilustra cómo estas tres referencias se usan (Ver anexo de referencia de diagramas) . En el comienzo, cuando el sistema inicial se carga, las tres referencias se ajustan para ser las mismas, es decir, REFERENCIA DE CÓDIGO = REFERENCIA DE JUEGO = REFERENCIA DE SEGUIMIENTO, lo que es decir que las coordenadas x y y de los puntos de referencia en cada una de las gamas de referencia se ajustan para ser las mismas que las coordenadas de los puntos de referencia en la gama de referencia de código.
Durante el rodaje, cuando el procesamiento de imágenes se hace, las tres gamas de referencia se usan en la siguiente manera. La referencia de juego se usa en el modo de búsqueda y verificación y en la referencia de seguimiento se usa el modo de seguimiento.
Inicialmente la gama de referencia de seguimiento se ajusta igual a la gama de referencia de juego. En la modalidad preferida esto ocurre en el primer campo en el cual el seguimiento se hace. En campos subsecuentes la referencia de seguimiento se modifica como se detalló anteriormente. Si las gamas de referencia de seguimiento separadas se usan para campos pares y nones ambos inicialmente tendrían que ser ajustados en la gama de referencia de juego.
A cualquier hora durante el modo de seguimiento, el operador puede elegir copiar referencias de seguimiento actuales dentro de la referencia de juego usando herramientas de interfase de computadora estándares como es una pantalla, teclado, ratón, interfase de usuario de gráfica, bola de seguimiento, pantalla de tacto o una combinación de dichos dispositivos. Esta función es útil al comienzo de un juego.
Por ejemplo, un operador puede ajustar el sistema de inserción de vídeo en vivo para realizar inserciones en un estadio particular. Las coordenadas de referencia de código tienen posiciones de puntos de referencia basadas en un juego previo en un estadio pero la posición de los puertos de referencia pudo haber sido alterada totalmente en el tiempo de intervención. La referencia de código, sin embargo, permanece lo suficientemente buena para buscar y seguir la mayoría del tiempo. Alternativamente, al esperar para una toma, o hacer que el director fije una antes del juego, en la cual todos los puntos de referencia están libres de obstrucción, y permitiendo que el ajuste de la referencia de seguimiento esté completa, una referencia de juego más exacta para ese juego particular se puede lograr.
A cualquier hora, ya sea en el modo de búsqueda o de seguimiento el operador puede elegir reajustar la referencia de juego a la referencia de código. Esto permite la recuperación de los errores del operador en reajustar la referencia de juego a la referencia de seguimiento corrompida.
Una parte importante del proceso de referencia adaptable es restringir la actualización a los puntos de referencia los cuales se conocen como que no están ocluidos por objetos como los jugadores. El método usado para esta detección de oclusión de puntos de referencia en la modalidad preferida se basa en color y toma ventajas del hecho de que la mayoría de los deportes se juegan en superficies las cuales tienen áreas bien definidas de color bastante uniforme, o en estadios los cuales tienen características sustanciales, de color uniforme, como es la pared trasera en un estadio de béisbol. Cada punto de referencia 90 como se muestra en la Figura 9, tiene puntos de sensores 92 asociados con ellos. Estos puntos de sensor 92, los cuales en la modalidad preferida varían de 3 a 9 puntos de sensores por puntos de referencia 90, son pixeles en posiciones predeterminadas cerca a, o preferentemente alrededor del punto de referencia al cual están asociadas. Más importante, los puntos de sensores están todos en- áreas de color razonablemente uniforme. La decisión sobre si los puntos de referencia están ocluidos o no se basa en ver los puntos de sensores y medir su desviación desde un valor promedio. Si esta desviación se excede a un valor prefijado, el punto de referencia se presume como cero ocluido. De esta manera está disponible para usarse en otros cálculos, como es el cálculo de modelos y la actualización de gamas de referencia.
La discusión hasta este punto se ha descrito en las características de seguimiento LVIS y detección/búsqueda de la solicitud copendiente no. de serie 08/580,892 presentada el 29 de diciembre de 1995, titulada "METHOD OF TRACKING SCENE MOTION FOR LIVE VIDEO INSERTION SYSTEMS".
El concepto de la presente invención es aumentar el esquema de predicción de velocidad de un LVIS estándar con información de sensor de cámara. Mientras que dicha acción puede sonar como trivial, es de hecho un compromiso complejo que requiere sincronicidad entre diferentes formatos de información. La información del sensor de cámara proporciona una foto "instantánea" de una imagen de campo completa la cual se puede reducir a una gama de coordenadas de imagen bidimensional en donde toda la gama de imagen se localiza al mismo tiempo, es decir en un solo instante en el tiempo. Es decir, los pixeles en el lado izquierdo de la gama representan el mismo instante en tiempo que los pixeles en el lado derecho de la gama. El seguimiento de movimiento usando una técnica estándar LVIS, sin embargo, un proceso continuo de actualización con respecto a las coordenadas de gama de imagen. De este modo, en cualquier instante dado, los pixeles en el lado izquierdo de la gama de imagen no representan el mismo instante en tiempo que los pixeles en el lado derecho de la gama de imágenes. Para el sistema híbrido de la presente invención para usar sin uniones, dichas anomalías deben ser tomadas en cuenta y compensadas.
Haciendo referencia a la Figura 10, se encuentra una cámara 110 que tiene un lente 112 montado en un trípode 111, ajustada para registrar un juego de tenis en una cancha de tenis 115. La cámara 110 y el lente 112 se ajustan con un conjunto de sensores 113 designados para medir la vista panorámica, la distorsión de imagen, el zoom y el enfoque de lente 112 en la cámara 110. Los sensores 113 también determinan si ópticas de doble amplificación se están usando. Las cámaras de transmisión usualmente tienen un elemento "doblador", el cual se puede cambiar dentro o fuera del tren del lente de los elementos ópticos al girar una perilla. El uso de este doblador efectivamente dobla la amplificación de la imagen en cualquier lugar dado del elemento zoom del lente. Esto quiere decir que una sola lectura de Z (las cuentas del manejador del elemento zoom) se asocia con dos diferentes valores de zoom o amplificación de imagen. El reunidor de información 114 recibe información de los sensores de cámara 113 antes de alimentar la misma al Sistema de Inserción de Vídeo en Vivo (LVIS)~ 118 teniendo un interpretador de información 116. El interpretador de información 116 convierte la información mandada por el reunidor de información 114 en una forma que se puede usar por el sistema LVIS. Otras cámaras similares con sensores se colocan a través del lugar del evento para grabar diferentes vistas de la acción.
La Figura 10 también muestra parte del equipo de transmisión usual, como es un interruptor 120, usado en producción de televisión. El interruptor permite que el director escoja entre varias fuentes de vídeo como la que va a ser actualmente transmitida. Ejemplos de otras fuentes de vídeo mostradas en la Figura 10 incluyen cámaras adicionales 110 o dispositivos de almacenamiento de vídeo 122. El interruptor 120 también puede incluir una máquina de efectos 124 como es una máquina de efectos de vídeo digital. Esto permite que el director pueda cambiar de un alimentador de vídeo a otro por medio de tramadores u otros dispositivos de manipulación de imagen. Los tramadores son dispositivos de manipulación de imagen que traducen una imagen de una perspectiva a otra como es, por ejemplo, un cambio en el zoom, la vista panorámica, o la distorsión de imagen.
La alimentación de programa después se manda a un LVIS 118. Además de la detección/búsqueda, es decir, reconocimiento, y siguiendo de las habilidades de un sistema de inserción de vídeo en vivo típico, el LVIS 118 de la modalidad preferida de la presente invención además incluye un interpretador de información 116. El interpretador de información 116 interpreta la información del sensor de cámara del reunidor de información 114 y la información de registro recibida del interruptor 120 con lo cual se informa el LVIS 118 qué fuente de vídeo se está transmitiendo actualmente. El LVIS 118 además está equipado con un módulo de decisión hardware y software 126. El modulo de decisión 126 permite que el LVIS 118 use la información de sensor en lugar de la información de modo de seguimiento tradicional obtenida mediante las técnicas de reconocimiento de patrón previamente descritas. El módulo de decisión 126 puede cambiar entre un modo de seguimiento de reconocimiento de patrón convencional o un modo donde el seguimiento se hace mediante la combinación de la información de sensor de cámara y el reconocimiento de patrón.
Una vez que el vídeo ha pasado a través de LVIS 118 una señal 136 se inserta en forma realista y sin uniones en la corriente de vídeo. La inserción puede ser estática, animada, o una alimentación de vídeo en vivo de una fuente de vídeo separada 128. La señal de vídeo resultante entonces se manda vía medios adecuados 130, los cuales pueden ser satélite, transmisión por área o cable, a un recibidor casero 132 donde el escenario 135 con la señal insertada 136 se despliega en un televisor convencional 124.
Haciendo referencia ahora a la Figura 13, el conjunto de sensores que determinan la vista panorámica y la distorsión de imagen de la cámara 110 comprenden potenciómetros de precisión o de codificadores ópticos diseñados para medir la rotación alrededor de los ejes horizontal 146 y vertical 142. Los sensores similares también determinan el enfoque y el zoom del lente 112 midiendo la translación del elemento óptico dentro del elemento 112. El movimiento de enfoque y zoom se determina midiendo la rotación de ejes que mueven los elementos ópticos que definen el enfoque y el zoom. Esto se hace midiendo la rotación alrededor del eje 150 de la manija 148 usada por el operador de cámara para cambiar el zoom, y alrededor del eje 154 de la manija 152 usada por el operador de cámara para efectuar cambios en el enfoque. — La información de sensor de panorama 140, el sensor de distorsión de imagen 144, el sensor de zoom 149 y el sensor de enfoque 153 se recolecta por el reunidor de información 114. El reunidor de información 114 entonces toma los voltajes en bruto y/o las pulsaciones de sensor generadas por varios sensores y los convierte en una serie de números en un formato que puede ser transmitido al interpretador de información 116 del LVIS 118. El interpretador de información 116 se puede localizar remotamente o en el lugar. El reunidor de información 114 puede tomar la forma de una computadora personal equipada con comunicación apropiada y tarjetas de procesamiento, como son las tarjetas convertidoras estándares de análogo a digital (A/D) y puertas de comunicación paralelas.
Para la información del potenciómetro, como es el sensor del zoom 149 y el sensor de enfoque 153, el reunidor de información 114 convierte un voltaje análogo, típicamente en el rango de -3 o +3 volts, a una señal la cual está en una serie de números que representa la posición del lente. Estos números pueden ser reunidos en algún nivel de información predeterminado como es una vez por campo de vídeo o una vez cada 6 milisegundos y mandando al interpretador de información 116 del LVIS 118. O, el LVIS 118 puede mandar una requisición al reunidor de información 114 requiriendo una actualización de uno o más parámetros que están siendo usados.
La información de codificador óptico típico está en tres pistas como se ilustra en la Figura 14. Cada pista consiste de una serie de pulsaciones binarias. Las pistas A y B son idénticas pero están fuera de fase por un cuarto de período uno del otro. Un período es la combinación de una pulsación alta y baja. En un decodificador óptico típico una rotación del dispositivo de sensor a través de 360 grados dará como resultado aproximadamente 40,000 cuentas donde una cuenta es cada vez que la información de salida del decodificador va de 0 a +1 o de +1 a 0. La razón para tener dos pistas de información en un cuarto de período fuera de fase es para informar al interpretador de información 116 en qué dirección el sensor está girando. Como se ilustra en la Figura 15, si la pista A está siendo una transición, entonces el estado de la pista B determina si el sensor está siendo girado en la dirección de las manecillas del reloj o en dirección contraria a la dirección de las manecillas del reloj. Por ejemplo, si la pista A está haciendo una transición de un estado alto a un estado bajo y si la pista B está en un estado alto entonces el sensor está girando en dirección de las manecillas del reloj . Por el contrario, si la pista B está en un estado bajo el sensor está girando en dirección contraria al de las manecilla del reloj .
Al estudiar las pistas A y B, el reunidor de información 114 puede monitorear la posición del sensor simplemente sumando o restando las cuentas como sea necesario. Todo lo que se necesita es un punto de referencia del cual empezar a contar. El punto de referencia se proporciona por la pista C. La pista C tiene solamente dos estados +1 o 0. Esto efectivamente define un punto de 0 grados y un punto de 180 grados. Ya que en una fijación práctica de cámara fija el arco a través del cual la cámara se gira es menor a 180 grados, solamente necesitamos considerar el caso de la posición C.
Al monitorear las transiciones de la pista C, el reunidor de información 114 puede fijar las cuentas de rotación a cero y luego aumentar o disminuir las cuentas continuamente monitoreando las pistas A y B a intervalos adecuado, como es uno por campo o cada 6 milisegundos, la posición de rotación del sensor óptico se puede mandar al interpretador de información 116. Alternativamente, a cualquier hora LVIS 118 puede mandar una requisición al reunidor de información 114 para una medición actual de uno o más de los parámetros que están siendo monitoreados .
La función del interpretador de información 116 es convertir la posición digitalizada y/o la información rotacional de un reunidor de información 114 en un formato compatible con y utilizable por un sistema típico de seguimiento LVIS. Haciendo referencia a la Figura 16, la información del sensor de la cámara y el lente se hace compatible con el sistema de seguimiento LVIS por medio de una imagen de referencia común.
La imagen de referencia común es una imagen almacenada que permite el modelado matemático o la traslación entre un sistema de seguimiento LVIS convencional, como aquel descrito en la solicitud de propiedad común No. de Serie 08/580,892, titulada "METHOD OF TRACKING SCENE MOTION FOR LIVE VIDEO INSERTION SYSTEMS" y un sistema que se basa exclusivamente en la información de sensor de cámara. Típicamente, la imagen de referencia común se modela con método de seguimiento escogido, es decir, por ejemplo, el análisis de textura o jerárquico geográfico adaptable, la información de sensor de cámara se traduce a ese modelo de seguimiento escogido.
Existen varios aspectos importantes sobre la imagen de referencia común. Primero es el origen. El origen se escoge como un punto en el cual el eje óptico del lente de la cámara va a través de la imagen de referencia común. Esto típicamente no es el centro de la imagen de vídeo por dos razones. Primera, puede haber un desalineamiento leve entre el eje de los elementos del zoom y los lentes y el eje óptico de los componentes del lente principal. Segunda, la gama de CCD de la cámara puede no estar exactamente perpendicular al eje óptico del lente.
Este fuera de lugar se puede manejar en una de dos maneras. Primera, el parámetro inclinado dependiente de zoom se puede adicionar a la interpretación de la información. O, segundo, un punto cero dentro de la imagen de referencia común se puede definir en el punto donde el eje óptico del lente de la cámara cruza la imagen de referencia común. El punto cero se puede determinar en la práctica en una variedad de formas. El método preferido primero fija una cruz filar en la imagen en el centro de la imagen. Segundo, se coloca el zoom hacia adentro en un punto de triangulación. Un punto de triangulación es un punto de referencia o un punto fijo. Después, se visualiza en panorámica o se distorsiona la imagen de la cámara hasta que la cruz filar se centra en el punto de triangulación. Entonces se coloca el zoom hacia afuera lo más lejos posible. Ahora se mueve la cruz filar en la imagen hasta que se centra otra vez en el punto de triangulación. Finalmente, repetir los pasos segundo y tercero hasta que la cruz filar permanezca centrada en el punto de triangulación a medida que la cámara coloca el zoom hacia adentro y hacia afuera. Las coordenadas x, y del punto de triangulación y de la cruz filar ahora están en los puntos (0,0) de la imagen de referencia común, es decir, el origen.
La imagen de referencia común mostrada en la Figura 16 es una imagen de un estadio o de un evento tomado en un zoom intermedio con una posición conocida de parámetros de cámara de vista panorámica, distorsión de imagen, zoom, y enfoque. La imagen de referencia común es una conveniencia para el operador. Por conveniencia, tenemos la siguiente definición: P = Cuentas de vista panorámica (el número que el decodificador de vista panorámica 40 alimenta al interpretador de información) ; T= Cuenta de distorsión de imágenes (el número que el decodificador de distorsión de imágenes 44 está alimentando al interpretador de información) ; Z= Cuenta de zoom (el número que el decodificador de zoom 49 está alimentando al interpretador) ; y F= Cuenta de enfoque (el número de enfoques que el decodificador 53 está alimentando al interpretador de información) . La lectura de sensor de cámara también se registra contemporáneamente con la imagen de referencia común y se le dan las siguientes designaciones: Z0=Z cuando se toma la imagen de referencia común; F0=F cuando se toma la imagen de referencia común; T0=T cuando se toma la imagen de referencia común; P0=P cuando se toma la imagen de referencia común; y (X0=Yo) son las coordenadas en la imagen de referencia común del punto (0,0) definido anteriormente.
Tres constantes de calibración se requieren para traducir la información de sensor de cámara en una forma utilizable por un sistema de seguimiento de imagen LVIS convencional. Estas constante son: xp, el número de x pixeles que se mueven por cuenta del sensor de vista panorámica en Z0, F0; yt, el número de pixeles que se mueven por cuenta del sensor de distorsión de imagen en Z0, F0; y zf, el número de Z cuentas equivalentes a F cuentas de sensor en Z0. xp y yt están relacionadas por una constante simple pero han sido identificadas separadamente por el bien de la claridad.
La Figura 17 es un diagrama lineal de Z, la cuentas del zoom a lo largo del eje x, contra el zoom a lo largo del eje y. El zoom en la posición de imagen de referencia común es la unidad de zoom. Como se puede ver en las líneas punteadas, un efecto lateral de ajuste de elemento de enfoque de cámara es una alteración en la amplificación de imagen o zoom. La naturaleza de la alteración es muy similar a la naturaleza de la alteración en la amplificación de la imagen producida por el ajuste del zoom. Sin embargo, el cambio en la amplificación de la imagen (zoom) enseñada por el ajuste del elemento de enfoque a través de todo su rango es significantemente más pequeño que el cambio en la amplificación de imagen enseñada por el ajuste del elemento de zoom de cámara a través de todo su rango.
Esto se puede entender gráficamente considerando dos conjuntos de diagramas. Primero, una gráfica se hace de la Amplificación de Imagen (Zoom) contra el ajuste de los elementos de zoom del lente (como se midió contando el número de rotaciones, Z, del eje inclinado moviendo los elementos zoom en el lente zoom) , con el elemento de enfoque del lente zoom mantenido en una posición fija. Esta primer diagrama se llama diagrama de Amplificación contra Zoom.
Segundo, un número de gráficas se hacen de la ampliación de la imagen contra el ajuste del elemento de enfoque del lente (como se midió contando el número de rotaciones, F, del eje inclinado moviendo los elementos de enfoque en el lente zoom en un número de posiciones distintas de Z, la posición del elemento de zoom. Estas gráficas se llaman diagramas de Ampliación contra Enfoque.
Los diagramas de Ampliación contra Enfoque pueden entonces traslaparse en los diagramas de Ampliación contra Enfoque, comprimiendo los ejes de enfoque de los diagramas de Ampliación contra Enfoque, la forma de la curva de Ampliación contra Enfoque se pueden hacer para que concuerden con la curvatura local del diagrama de ampliación contra zoom, como se muestra en la Figura 17.
El punto importante es que el grado de comprensión del eje de enfoque necesario para hacer que las curvas de enfoque concuerden con la curva de zoom es el mismo para cada una de las curvas de ampliación contra enfoque, a pesar de que están hechas en diferentes valores fijos de Z. Esto quiere decir que es posible simplificar las matemáticas en la interacción de zoom y enfoque en el tamaño de la imagen tratando los ajustes de zoom y enfoque en una manera similar. En particular, en la determinación de tamaño de imagen o amplificación, es posible interpretar la información del sensor de enfoque (la cuenta que mide la posición del elemento de enfoque) como siendo equivalente a la información de los sensores de zoom (la cuenta que mide la posición del elemento zoom) . Todo lo que se necesita para hacer que la información del zoom y el enfoque sea equivalente es una modificación simple de la información del enfoque mediante un solo valor fuera de lugar y un solo factor de multiplicación. Las cuentas de zoom equivalentes se definen por: J_5C = zf (F-F0) zf es una constante de calibración determinada por el diagrama de zoom en contra de las cuentas Z, y después traslapando el zoom en contra de las cuentas F en zooms particulares. Ajustando las cuentas F para que el zoom del enfoque encaje con la curva del zoom, la constante zf se puede encontrar. La misma cosa se puede hacer analíticamente determinando primero la relación entre el zoom y las cuentas Z, y usando esa relación para encajar el zoom a las cuentas F, ajustando zf.
En la modalidad preferida, el zoom primero se ajusto a Z usando la siguiente función exponencial usando un ajuste cuadrático mínimo: 2 Z = e También puede haber una tabla de consulta para convertir las cuentas de zoom al natural a zoom, o una combinación de tabla de consulta e interpolación matemática la cual puede ser similar a la expresión en la ecuación anterior.
Las constantes de calibración xp y yt se miden señalando a la cámara hacia uno o más puntos en la imagen de referencia común, es decir, centrando la cruz filar en el eje óptico del lente y registrando los valores P y T. Al medir la distancia de pixeles en la imagen de referencia común entre los puntos seleccionados y el punto (0,0), las constantes de calibración xp y yt se calculan por medio de las siguientes dos ecuaciones : xp= (X-X0) / (Y-Y0) yt= (Y-Y0) / (T-T0) Las constantes xp, yt, zf, a, b y c se usan con constantes de referencia Z0, F0, P0, T0, Xo y Yo para relacionar P, Z, T y F a coeficientes afines usados por el software de seguimiento de imagen LVIS convencional, o para calcular la posición de un punto en la imagen actual cuya posición es conocida con respecto a una gama de referencias de la imagen de referencia común.
En la representación afín más simple, ignorando la rotación y asumiendo que el zoom es igual en las direcciones x y y la posición de un objeto se puede relacionar con su posición en la imagen de referencia por las ecuaciones: X± — ZXr + t y± = Zyr + ty donde x± y y± son la posición x y y de un objeto en una imagen actual, xr y yr son la posición x y y en el mismo objeto en la imagen de referencia común, Z es el zoom entre la imagen actual y la imagen de referencia común, * y ty son las translaciones x y y entre la imagen actual y la imagen de referencia común. En la ecuación de seguimiento LVIS convencional, Z, t, y t¡, se solucionan midiendo la posición de un conjunto de puntos de referencia conocidos, usando un ajuste de cuadratura mínima pesada. Habiendo encontrado Z, tx y ty, cualquier otro punto en la imagen de referencia común entonces se puede localizar en la imagen actual usando las ecuaciones para x± y y±.
De las ecuaciones anteriores se puede ver que Z es simplemente: _icriK. -i.r-* T?KÜ en donde µ es el zoom combinado y las cuentas de enfoque como se definen por: µ = Z + zf(F-Fo) tx y ty se encuentran del sensor de cámara usando la relaciones : tx = xp(P-Po) ty = yt(t-To) En la modalidad preferida, la unidad de interpretación de información 116 es ya sea implementación de software o hardware o una combinación de implementación de software y hardware de las ecuaciones que convierten la información de sensor P, T, Z y F en Z, tx y ty, habiendo sido calibradas al definir P0, T0, Z0, F0, X0, Yo, zf, xp y yt.
La posición de x y y de un punto se puede explicar directamente en términos de P0, T0, Z0, F0, Xo, Yo, zf, xp y yt por: Xi = xrZ + xp (P-P0) y¿ = yrz + yt (T-To) Cualquiera que sea la implementación usada, la implementación en el hardware o software puede ser mediante las expresiones analíticas detalladas anteriormente, mediante tablas de consulta las cuales expresan o aproximan las expresiones, la información experimental donde las expresiones se derivaron, o por una combinación de tablas de consulta, expresiones analíticas e información experimental.
El LVIS puede ahora usar la información de sensor de cámara traslada en un número de formas. Cualquiera que sea el método usado, sin embargo, debe compensar la distorsión del lente de un lente particular que se está usando.
Un método para usar la información de cámara trasladada es usar la conversión afín de Z, tx y ty para búsqueda solamente, y entonces cambiar al seguimiento convencional. Esto quiere decir que la distorsión del lente se puede compensar convencionalmente teniendo una imagen de referencia común deformable como se describe en detalle en las solicitudes copendientes de propiedad común Nos. de Serie 08/563,598 y 08/580,892 tituladas "SYSTEM AND METHOD FOR INSERTING STATIC AND DYNAMIC IMAGES INTO A LIVE VIDEO BROADCAST" y "METHOD OF TRACKING SCENE MOTION FOR LIVE VIDEO INSERTION SYSTEMS" respectivamente.
Una segunda aplicación para usar la información de cámara trasladada es usarla en suplemento de la capacidad de seguimiento del sistema usando la conversión afín de Z, tx y ty para crear uno o más puntos de referencia de imagen-céntrico, los cuales siempre están visibles, pero que tienen un factor de peso que siempre da un error de aproximadamente 2 pixeles, y luego alimentar estos puntos de referencia en un sistema de seguimiento de puntos de referencia basado en matriz en detalle en la solicitud de patente copendiente con No. de serie 08/580,892 presentada el 29 de diciembre de 1995 titulada "METHOD OF TRACKING SCENE MOTION FOR LIVE VIDEO INSERTION SYSTEMS". La imagen de referencia común flexible tendría que ser extendida para incluir los parámetros de referencia de cámara flexible.
Un tercer método para usar la información de cámara trasladada es suplementar la capacidad de seguimiento del sistema usando la conversión afín de Z, tx y ty, para predecir, o como parte de la predicción, donde los puntos de referencia de seguimiento ópticos deberían estar en la imagen actual, y luego usar los puntos de referencia o seguimiento de textura para mejorar cualquier modelo que se está usando para relacionar la imagen actual con la gama de referencia hasta el punto de obtener estructuras reconocibles. El seguimiento de texturas se describe en la solicitud provisional co-pendiente No. de Serie 60/031,883 presentada el 27 de noviembre de 1996 titulada "CAMERA TRACKING USING PERSISTANT, SELECTED, IMAGE TEXTURE TEMPLATES". Este enfoque se puede usar con cualquier representación de modelo incluyendo afinidad total y perspectiva. La compensación de distorsión es más difícil, especialmente si la suplementación va a^ser modular -es decir, disponible en, por ejemplo zoom, x fuera de lugar (o traslación horizontal) y y fuera de lugar (o traslación vertical) separadamente y en cualquier combinación de estas. Una forma contundente es tener una función o tabla de consulta que localiza la distorsión.
Habiendo determinado el modelo que relaciona la imagen actual con la imagen de referencia común, el restante del LVIS, incluyendo la oclusión de inserción, se puede usar normalmente, como se describe en detalle en la aplicación de la patente co-pendiente con No. de Serie 08/662,089 titulada "SYSTEM AND METHOD OF REAL-TIME INSERTIONS INTO VIDEO USING ADAPTIVE OCCLUSION WITH A SYNTHETIC COMMON REFERENCE IMAGE".
En una modalidad alternativa de la invención ilustrada en parte en la Figura 18, además de los sensores de vista panorámica, distorsión de imagen, zoom y enfoque 113 ya descritos, hay dos sensores adicionales 160 y 164 ajustados en el módulo de transición mediante los cuales la cámara 110 y el lente 112 se unen al trípode 111. Estos sensores adicionales 160, 164 son acelerómetros los cuales miden la aceleración en dos direcciones octogonales 162 y 166. La información de los acelerómetros se alimenta a la unidad reunidora de información 114, donde se integra dos veces con respecto al tiempo para proporcionar el desplazamiento actual de la cámara en las direcciones x y y. La información de desplazamiento se alimenta a la unidad de interpretación de información 116, donde se multiplica por parte de la constante de calibración determinada previamente, y se adiciona a los componentes tx y ty de la transformación afín trasladada o multiplicada por una constante de calibración relacionada pero diferente y adicionada directamente a las cuentas de vista panorámica y distorsión de imagen respectivamente para usarse en una conversión directa para formar coordenadas de imagen.
En una versión simplificada de esta modalidad alternativa, solamente el acelerómetro 160 que mide la aceleración en la dirección vertical se adiciona a los sensores de vista panorámica, distorsión de imagen, zoom y enfoque 113, como el problema más común con cámaras estacionarias superpuestas es que se montan en plataformas inestables y el eje vertical es el problema mayor.
En una modificación de la versión simplificada de la modalidad alternativa, un segundo acelerómetro 163 se ajusta al frente del lente 112 para que la flexibilidad u oscilación de la cámara en la dirección vertical, independiente de la distorsión de imagen alrededor del lente 146, también se pueda medir y pueda hacerse uso en asegurarse de la dirección en la cual la cámara 110 y el lente 112 están apuntando en cualquier hora dada.
En otra modalidad alternativa de la invención ilustrada en la Figura 19, los sensores de zoom y enfoque 149 y 153 ajustados al lente 112 son los mismos que en la modalidad preferida, pero los sensores de distorsión de imagen y de vista panorámica 140 y 144 se cambian, y hay un sensor de rotación adicional 174, y existe una Frecuencia de Radio adicional (RF) o se fija un Transmisor Infrarrojo (IR) . El sensor de distorsión de imagen 144 es un potenciómetro de péndulo, que mide la distorsión de imagen de la superficie gravitacionalmente definida de la tierra de normal a local. El sensor rotacional 174 también es un potenciómetro del péndulo, o un sensor de codificador óptico con un indicador de cero sensibilidad a la gravedad, diseñado para medir la rotación de una cámara alrededor de un eje 176. El sensor de vista panorámica 140 es un compás electrónico sensible que mide la rotación horizontal lejos del eje magnético local, el cual puede por ejemplo ser el norte magnético local. El transmisor RF o IR 170 manda pulsaciones en forma adecuada a intervalos precisamente medidos predeterminados, los cuales son recogidos por dos o más recibidores 172 localizados en posiciones adecuadas en el estadio. Al medir las diferencias en el tiempo de llegada de las pulsaciones en los recibidores 172 la localización de la cámara del estadio se puede calcular dentro de unos cuantos milímetros. La información de los recibidores 172 y los sensores de cámara 140, 144, 149 y 153 entonces alimenta al interpretador de información 116 en el sistema LVIS . Al combinar la información, el sistema puede calcular la posición y orientación de la cámara 110, al igual que el enfoque y el zoom del lente 112. De esta manera se puede acomodar una cámara portátil o móvil. En la representación del modelo afín, las representaciones anteriores han sido extendidas para incluir los términos cruzados para lidiar con la rotación, por ejemplo x± = Zxr + ßyr + tx y± = Zyr + ßxr + ty donde (variables) es una constante de transformación para tomar en cuenta el grado de rotación extra de la libertad permitida por una cámara portátil.
En otra modalidad alternativa de la invención, mostrada en la Figura 20, el sistema puede manejar ambas cámaras portátiles o movibles y pueden determinar la posición de objetos de interés en el deporte que se esta jugando. Por ejemplo, en un juego de tenis que se juega en una cancha 15, la pelota 80 puede tener un transmisor dentro de ella, el cual puede ser un transmisor simple de Frecuencias de Radio (RF) o Infra Rojo (IR) , el cual está emitiendo pulsaciones adecuadamente formadas a intervalos de tiempo precisamente predeterminados, que son diferenciadas del transmisor 170 fijado a la cámara móvil 110, ya sea por tiempo, frecuencia, forma de pulsación u otros medios adecuados. Los recibidores 172, localizados en las posiciones adecuadas en el estadio, ahora ambos miden la diferencia en el tiempo de llegada de las pulsaciones emitidas por el transmisor de cámara 170 y el transmisor del objeto 180. El sistema ahora es capaz de localizar las posiciones instantáneas de ambas, la cámara 110 y la pelota con el transmisor 180. La información de la cámara 110 y los recibidores son alimentados al reunidor de información 114 y después al interpretador de información 116. El interpretador de información 116 ahora puede inferir la localización, orientación, zoom y enfoque de cámara 110 y el lente 112, los cuales pueden, como se describió en detalle previamente, proporcionar información de búsqueda al sistema LVIS y también pueden ser usados para dar ventaja en el modo de seguimiento en el sistema LVIS. Además, el interpretador de información 116 también puede proporcionar información sobre la localización de un objeto de interés 180 en la imagen actual, la cual se puede usar por ejemplo, para proporcionar mejoramientos al televidente como es una gráfica 84 en la información de salida final mostrando la trayectoria 182 del objeto de interés.
Deberá entenderse que el aparato y método de operación enseñados aquí son a manera de ilustración de la invención. Las modificaciones pueden fácilmente ser ideadas por aquellos experimentados en la técnica sin apartarse del espíritu o alcance de la invención.

Claims (29)

REIVINDICACIONES
1. Un método para seguir el movimiento de campo a campo en una secuencia de imágenes de vídeo relacionadas que se exploran por lo menos por una cámara que tiene uno o más dispositivos sensores de hardware, el método está caracterizado porque comprende los pasos de: a) establecer una gama de coordenadas idealizadas x y y que representan una gama de referencia teniendo una pluralidad de puntos de referencia donde cada punto de referencia tiene una coordenada única x y y; b) localizar las coordenadas x y y en una imagen actual a dichas coordenadas x y y en dicha gama de referencia; c) adquirir la información de sensor de cámara de dicho dispositivo sensor de hardware, dicha información de sensor de cámara representando la posición y orientación de la cámara; d) predecir la localización futura de tales coordenadas de punto de referencia, x' y y' , usando tal información de sensor de cámara, caracterizado porque tales errores de predicción debido a los cambios entre dos campos sucesivos se minimizan adicionando (i) la diferencia de campo a campo en la localización del punto de referencia calculada de tal información de sensor de cámara a (ii) la posición del punto de referencia x, y previamente localizado.
2. El método de conformidad con la reivindicación 1, caracterizado porque la localización se logra de acuerdo con la siguiente relación: x ' = a + bx + cy yr = d +ex + fy en donde x es una coordenada horizontal en la gama de referencia, y es una coordenada vertical en la gama de referencia, x' es una coordenada horizontal en el escenario actual, y' es una coordenada vertical en el escenario actual, a es un parámetro de trama para la traslación horizontal del objeto en la dirección x, b es un parámetro de trama para la amplificación entre la gama de referencia y la imagen actual en la dirección x c es un parámetro de trama para la combinación de rotación e inclinación en la dirección x, d es un parámetro de trama para la traslación vertical del objeto en la dirección y, e es un parámetro de trama para la combinación de la rotación e inclinación en la dirección y, f es un parámetro de trama para la ampliación entre la gama de referencia y la imagen actual en la dirección y.
3. El método de conformidad con la reivindicación 2, caracterizado porque las imágenes de vídeo están entrelazadas verticalmente donde las imágenes de campo a campo se alternan entre campos similares y no similares.
4. El método de conformidad con la reivindicación 3, caracterizado porque la predicción de la localización futura de tales coordenadas de punto de referencia x' y y' , para tales imágenes de vídeo entrelazadas se basan en un cambio detectado de posición del punto de referencia del campo similar previo.
5. El método de conformidad con la reivindicación 4, caracterizado además porque comprende los pasos de: e) buscar uno de tales puntos de referencia en la imagen actual o medios de correlación usando una plantilla donde la búsqueda se conduce sobre una región sustancial viendo la localización predicha del punto de referencia; f) multiplicar los resultado de tal búsqueda de correlación en el paso (e) por medio de una función de pesado dando mayor peso a las correlaciones más cercanas en distancia a la localización predicha del punto de referencia para producir una superficie de correlación pesada; g) buscar la superficie de correlación pesada para encontrar su valor pico.
6. El método de conformidad con la reivindicación 5, caracterizado además porque comprende los pasos de: h) determinar nuevos parámetros trama a, b, c, d, e y f para una imagen actual basada en la posición actual de un punto de referencia en una imagen actual pesada por la función de pesado para ese punto de referencia, en donde se da énfasis a los puntos de referencia que están más cercanos a la posición predicha.
7. El método de conformidad con la reivindicación 6, caracterizado porque la función de pesado comprende la siguiente relación: Peso de Error h+ (?((xp -xm)} + (yp - ym f ) f en donde : g, h, i, j, k y 1 son constantes numéricas; xp es una localización de coordenada x predicha de tal punto de referencia; xm es la posición de coordenada x medida de tal punto de referencia; yp es la localización de la coordenada y predicha de tal punto de referencia; Y, ym es la posición de coordenada y medida de tal punto de referencia.
8. El método de conformidad con la reivindicación 7, caracterizado además porque incluye el paso de: i) actualizar las posiciones de puntos de referencia en la gama de referencia de acuerdo con la posición de tales puntos de referencia en la imagen actual, en donde la actualización se logra basada en puntos de referencia bien identificados y de acuerdo con la función de pesado de punto de referencia.
9. El método de conformidad con la reivindicación 8, caracterizado además porque comprende el paso de j ) establecer tres tipos de gamas de referencia antes de la transmisión incluyendo; i) una gama de referencia de código que tiene coordenadas de punto de referencia igual a las coordenadas de punto de referencia, ii) una gama de referencia de juego que tiene coordenadas de punto de referencia inicialmente fijadas igual a las coordenadas de gama de punto de referencia de código, y iii) una gama de referencia de seguimiento que tiene- coordenadas de punto de referencia inicialmente fijadas igual a las coordenadas de gama de punto de referencia del código .
10. El método de conformidad con la reivindicación 9, caracterizado además porque comprende los pasos de: k) cambiar la gama de referencia de seguimiento de coordenada durante una transmisión; y 1) restablecer la gama de referencia de seguimiento de las coordenadas a la gama de referencia de juego de coordenadas después de un corte de escena.
11. El método de conformidad con la reivindicación 10, caracterizado porque el sistema de vídeo se controla por un operador y el método está caracterizado además porque comprende el paso de: m) selectivamente escoger para fijar la gama de referencia de seguimiento actual de coordenadas igual a la gama de referencia de juego de coordenadas o fijar la gama de referencia de juego de coordenadas de regreso a la gama de referencia del código de coordenadas, en donde el operador puede actualizar o rebasar la gama de referencias de seguimiento o de juego de coordenadas.
12. El método de conformidad con la reivindicación 11, caracterizado además porque comprende los pasos de: n) establecer un conjunto de puntos de sensor en un patrón alrededor de la posición de cada punto de referencia, los puntos de sensor siendo capaces de detectar cambios en color e iluminación; o) determinar si los puntos de sensor son diferentes en color o iluminación del color o iluminación esperados; y p) excluir el punto de referencia de cálculos futuros si la iluminación o color son sustancialmente diferentes de lo que se esperaba, en donde el punto de referencia se valora como ocluido si la iluminación a color en los puntos de sensor son sustancialmente diferentes del color o iluminación esperados.
13. El método de conformidad con la reivindicación 12, caracterizado porque la partida de correlación es una ventana de 15 por 15 pixeles.
14. El método de conformidad con la reivindicación 1, caracterizado porque la localización se logra de acuerdo con la siguiente relación: x'= a + bx y' = d +by en donde : x es una coordenada horizontal en la gama de referencia, y es una coordenada vertical en la gama de referencia, x' es una coordenada horizontal en el escenario actual, y' es una coordenada vertical en el escenario actual, b es un parámetro de trama para la amplificación entre la gama de referencia y la imagen actual, a es un parámetro de trama para la traslación horizontal del objeto en la dirección x, y d es un parámetro de trama para la traslación vertical del objeto en la dirección y.
15. El método de conformidad con la reivindicación 4, caracterizado además porque comprende los pasos de: q) buscar uno de los puntos de referencia en la imagen actual por medios de correlación usando una plantilla donde el punto de comienzo de búsqueda es sustancialmente centrado en la posición predicha del punto de referencia; r) hacer la búsqueda comenzando de la posición predicha y proceder hacia afuera buscando una concordancia; y s) descontinuar la búsqueda del punto de referencia cuando la concordancia exceda un valor de umbral.
16. El método de conformidad con la reivindicación 6, caracterizado porque la función de pesado comprende la siguiente relación: 1.0 Peso de Error 2 .O Q+((xp-xm)7+( p - ym )2 ) en donde : xp es la posición de coordenada x predicha de tal punto de referencia; xm es la posición de coordenada x medida de tal punto de referencia; yp es la posición coordenada y predicha de tal punto de referencia; y, y es la posición de coordenada y medida de tal punto de referencia.
17. Un método para unir una corriente de vídeo primario en una corriente a nivel secundario para que la corriente de vídeo combinada aparezca como que tiene un origen común de un campo de video a otro campo de vídeo aún a medida que la corriente de vídeo primaria se modula por cambios en la orientación y localizaciones de la cámara, el origen aparentemente común logrado usando el análisis de reconocimiento de patrón de la corriente de vídeo primaria para estabilizar y refinar la información de extensión de cámara que representa la orientación y localización de la cámara de fuente de vídeo primaria, tal método está caracterizado porque comprende los pasos de: t) adquirir información de sensor de cámara de por lo menos una cámara equipada con sensores de hardware los cuales miden la orientación y localización de la cámara, u) convertir la información de sensor de cámara a un formato adecuado para la transmisión, v) transmitir la información de sensor de cámara convertida a un sistema de inserción de vídeo en vivo, w) convertir la información de sensor de cámara a una forma afín, x) predecir dónde los puntos de referencia en el campo previo de vídeo estarán en el campo actual de vídeo basados en la información de sensor de cámara, y) realizar correlaciones para detectar posiciones de puntos de referencia centrados alrededor de las posiciones de puntos de referencia predicha por la información de sensor de cámara, y z) crear un modelo que se relaciones con el campo de referencia del vídeo al campo actual de vídeo usando un ajuste medio cuadrático mínimo pesado para todos los puntos de referencia localizados.
18. El método de conformidad con la reivindicación 17, caracterizado porque la orientación y posición de por lo menos una cámara comprende enfoque, zoom, vista en panorámica y distorsión de imagen.
19. El método conformidad con de la reivindicación 17, caracterizado porque el formato adecuado para la transmisión es una serie numérica obtenida convirtiendo la información de sensor de cámara a información adquirida de una base análoga a una base digital.
20. Un método para reunir una corriente de vídeo primaria con una corriente de vídeo secundaria para que la corriente de vídeo combinada parezca que tiene un origen común de un campo de vídeo a otro campo de vídeo aún a medida que la corriente de vídeo primaria se modula por cambios en la orientación y posición de la cámara, tal origen común aparente se logra usando el análisis de reconocimiento de patrón de la corriente de vídeo primaria para estabilizar y refinar la información de sensor de cámara que representa la orientación y posición de la cámara de fuente de vídeo primaria, tal método está caracterizado porque comprende los pasos de: aa) adquirir información de sensor de cámara de por lo menos una cámara equipada con sensores de hardware los cuales miden la orientación y localización de la cámara, bb) convertir la información de sensor de cámara a un formato adecuado par la transmisión, ce) transmitir la información de sensor de cámara convertida a un sistema de inserción de vídeo en vivo, dd) convertir la información de sensor de cámara a una forma afín, ee) realizar correlaciones para detectar posiciones de puntos de referencia centrados alrededor de posiciones de puntos de referencia predichos por la información de sensor de cámara, ff) crear puntos de referencia virtuales usando la información de sensor de cámara, los puntos de referencia virtuales apropiadamente pesados para el error de información de cámara, y gg) crear un modelo que se relacione con un campo de referencia de vídeo al campo actual de vídeo usando un ajuste medio cuadrático mínimo pesado para todos los puntos de referencia virtuales y localizados.
21. El método de conformidad con la reivindicación 20, caracterizado porque la orientación y posición de por lo menos una cámara comprende enfoque, zoom, vista en panorámica, y distorsión de imagen.
22. El método de conformidad con la reivindicación 20, caracterizado porque el formato adecuado para la transmisión es una serie numérica obtenida por la conversión de la información de sensor de cámara a información adquirida de una base análoga a una base digital.
23. Un método para seguir el movimiento de campo a campo en una secuencia de imágenes de vídeo relacionadas que se exploran por lo menos por una cámara que tiene uno o más dispositivos de sensores de hardware, el método está caracterizado porque comprende los pasos de: hh) obtener un conjunto de plantillas de imágenes de una imagen de vídeo actual que cumpla con ciertos criterios de captura de plantilla y almacenando tal cantidad de imágenes en memoria; ii) adquirir información de sensor de cámara del dispositivo de sensor de hardware, tal información de sensor de cámara representando la posición y orientación de la cámara; jj) usar tal información de sensor de cámara para determinar la posición de cada plantilla de imagen almacenada con respecto a la imagen corriente, kk) calcular el modelo de transformación usando la posición de plantilla determinada con respecto a la imagen actual, tal modelo de transformación será usado para corresponder la información de posición de referencia con la información de posición de imagen actual; 11) extraer plantillas de imagen de la memoria que no cumplan con cierto criterio de retención de plantilla; y mm) obtener nuevas plantillas de imágenes de las imágenes actuales para reemplazar las plantillas de imágenes que fueron extraídas .
24. Un método para seguir el movimiento de campo a campo en una frecuencia de imágenes de vídeo relacionadas que se exploran por lo menos por una cámara que tiene dispositivos de sensor de hardware, tales disp nn) establecer una gama de coordenadas x y y idealizadas que representan una gama de referencia que tiene una pluralidad de puntos de referencia donde cada punto de referencia tiene una coordenada x y y única; oo) localizar las coordenadas x y y en una imagen actual a tales coordenadas x y y en la gama de referencia; pp) adquirir la información de sensor de cámara de tal dispositivo de sensor de hardware, tal información de sensor de cámara representa la posición, orientación y oscilación de la cámara; qq) predecir la localización futura de tales coordenadas de punto de referencia, x' y y' , usando la información de sensor de cámara, en donde los errores de predicción debido a los cambios entre los campos sucesivos se minimizan adicionando (i) la diferencia de campo a campo en la localización del punto de referencia calculado de tal información de sensor de cámara a (ii) la posición del punto de referencia x, y previamente localizado.
25. Un método de unir una corriente de vídeo primaria con una corriente de vídeo secundaria que la corriente de vídeo combinada parezca tener un origen común de un campo de vídeo a otro campo de vídeo aún a medida que la corriente de vídeo primaria se modula por cambios en la orientación de la cámara y localizaciones, tal origen común aparente logrado usando el análisis de reconocimiento de patrón de la corriente de vídeo primario para estabilizar y refinar la información de sensor de cámara que representa la orientación y localización de la cámara de fuente de corriente de vídeo primaria, tal método está caracterizado porque comprende los pasos de : rr) obtener un conjunto de plantillas de imágenes de una imagen de vídeo actual que cumpla con ciertos criterios de captura de plantilla y almacenando tales plantillas de imágenes en memoria; ss) adquirir información de sensor de cámara de por lo menos una cámara equipada con sensores de hardware los cuales miden la orientación y localización de la cámara; tt) convertir información de sensor de cámara a un formato adecuado para la transmisión; uu) transmitir la información de sensor de cámara convertida a un sistema de inserción de vídeo en vivo; w) convertir la información de sensor de cámara a una forma afín, ww) predecir dónde las plantillas de imagen en el campo previo de vídeo estarán en el campo actual del vídeo basado en tal información de sensor de cámara; xx) realizar correlaciones para detectar las posiciones de plantilla de imagen centrada alrededor de las posiciones de plantilla de imagen predichas por la imagen de sensor de cámara, y crear un modelo relacionando con un campo de referencia de vídeo al campo actual de vídeo usando un ajuste medio cuadrático mínimo pesado para todas las plantillas de imagen; zz) extrayendo las plantillas de imágenes de la memoria que no cumplan con ciertos criterios de retención de plantilla, y aaa) obtener nuevas plantillas de imágenes de tales imágenes actuales para reemplazar las plantillas de imágenes que fueron extraídas .
26. Un método para unir una corriente de vídeo primaria con una corriente de vídeo secundaria para que la corriente de vídeo combinada parezca tener un origen común de un campo de vídeo a otro campo de vídeo aún a medida que la corriente de vídeo primaria se modula por la oscilación de la cámara y los cambios en la orientación de la cámara y localizaciones, tal origen común aparente logrado usando el análisis de reconocimiento del patrón de la corriente de vídeo primaria para estabilizar y refinar la información de sensor de cámara que representa el movimiento, orientación y localización de la cámara de fuente de corriente de vídeo primaria, tal método está caracterizado porque comprende los pasos de: bbb) adquirir la información de sensor de cámara de por lo menos una cámara equipada con sensores de hardware los cuales miden la aceleración, orientación y localización de la cámara, ccc) convertir información de sensor de cámara a un formato adecuado para la transmisión; ddd) transmitir la información de sensor de cámara convertida a un sistema de inserción de vídeo en vivo; eee) convertir la información de sensor de cámara a una forma afín, fff) predecir dónde los puntos de referencia de imagen en el campo previo de vídeo estarán en el campo actual del vídeo basado en la información de sensor de cámara; ggg) realizar correlaciones para detectar las posiciones de los puntos de referencia de imagen centrada alrededor de las posiciones de los puntos de referencia de imagen predichas por la imagen de sensor de cámara, y hhh) crear un modelo relacionando un campo de referencia de vídeo al campo actual de vídeo usando un ajuste medio cuadrático mínimo pesado para todas las plantillas de imagen.
27. Un método de unir una corriente de vídeo primaria con una corriente de vídeo secundaria que la corriente de vídeo combinada parezca tener un origen común de un campo de vídeo a otro campo de vídeo aún a medida que la corriente de vídeo primaria se modula por cambios en la orientación y localización de la cámara, tal origen común aparente logrado usando el análisis de reconocimiento de patrón de la corriente de vídeo primario para estabilizar y refinar la información de sensor de cámara representando la orientación y localización de la cámara de fuente de corriente de vídeo primaria, tal método está caracterizado porque comprende los pasos de: iii) obtener un conjunto de plantillas de imágenes de una imagen de vídeo actual que cumpla con ciertos criterios de captura de plantilla y almacenando dichas plantillas de imágenes en memoria; jjj) adquirir información de sensor de cámara de por lo menos una cámara equipada con sensores de hardware los cuales miden la orientación y localización de la cámara; kkk) convertir la información de sensor de cámara a un formato adecuado para la transmisión; 111) transmitir la información de sensor de cámara convertida a un sistema de inserción de vídeo en vivo; mmm) convertir la información de sensor de cámara a una forma afín, nnn) realizar correlaciones para detectar posiciones de plantilla de imágenes centradas alrededor de posiciones de plantillas predichas por la información de sensor de cámara, ooo) crear plantillas de imágenes virtuales usando la información de sensor de cámara, tales plantillas de imágenes virtuales apropiadamente pesadas para el error de sensor de cámara, ppp) crear un modelo que se relaciones con un campo de referencia de vídeo al campo actual de vídeo usando un ajuste medio cuadrático mínimo pesado para todas la plantillas de imágenes virtuales y localizadas, qqq) extrayendo las plantillas de imágenes de la memoria que no cumplan con ciertos criterios de retención de plantilla, y rrr) obtener nuevas plantillas de imágenes de tales imágenes actuales para reemplazar las plantillas de imágenes que fueron extraídas .
28. Un método de unir una corriente de vídeo primaria con una corriente de vídeo secundaria que la corriente de vídeo combinada parezca tener un origen común de un campo de vídeo a otro campo de vídeo aún a medida que la corriente de vídeo primaria es modulada por la oscilación de la cámara y los cambios en la orientación y localización, tal origen común aparente logrado usando el análisis de reconocimiento de patrón de la corriente de vídeo primaria para estabilizar y refinar la información de sensor de cámara representando la aceleración, orientación y localización de la cámara de fuente de corriente de vídeo primaria, tal método está caracterizado porque comprende los pasos de: sss) adquirir la información de sensor de cámara de por lo menos una cámara equipada con sensores de hardware los cuales miden la aceleración, orientación y localización de la cámara, ttt) convertir información de sensor de cámara a un formato adecuado para la transmisión; uuu) transmitir la información de sensor de cámara convertida a un sistema de inserción de vídeo en vivo; w) convertir la información de sensor de cámara a una forma afín, www) realizar correlaciones para detectar las posiciones de plantilla de imagen centrada alrededor de las posiciones de plantilla de imagen predichas por la imagen de sensor de cámara, xxx) crear puntos de referencia virtuales usando la información de sensor de cámara, tales puntos de referencia virtuales apropiadamente pesados para el error de información de sensor de cámara, y ) crear un modelo relacionado con un campo de referencia de vídeo al campo actual de vídeo usando un ajuste medio cuadrático mínimo pesado para todos los puntos de referencia virtuales y localizados.
29. Un método para unir una corriente de vídeo primaria con una corriente de vídeo secundaria para que la corriente de vídeo combinada parezca tener un origen común de un campo de vídeo a otro campo de vídeo aún a medida que la corriente de vídeo primaria se modula por cambios en la orientación y localización de la cámara, tal origen común aparente logrado usando el análisis de reconocimiento de patrón de la corriente de vídeo primario para estabilizar y refinar la información de sensor de cámara que representa orientación y localización de la cámara de fuente de corriente de vídeo primaria, tal método está caracterizado porque comprende los pasos de: zzz) adquirir información de sensor de cámara de por lo menos una cámara equipada con sensores de hardware los cuales miden la orientación y localización de la cámara; aaaa) convertir información de sensor de cámara a un formato adecuado para la transmisión; bbbb) transmitir la información de sensor de cámara convertida a un sistema de inserción de vídeo en vivo; cccc) convertir la información de sensor de cámara a una forma y sistemas de coordenadas utilizables por el sistema de inserción de vídeo en vivo; dddd) predecir dónde las plantillas de imagen en el campo previo de vídeo estarán en el campo actual del vídeo basado en tal información de sensor de cámara; eeee) crear un modelo relacionando un campo de referencia de vídeo al campo actual de vídeo usando un ajuste medio cuadrático mínimo pesado para todas los puntos de referencia de imagen; ffff) obtener un conjunto de plantillas de imágenes de una imagen de vídeo actual que cumpla con ciertos criterios de captura de plantilla y almacenando tales plantillas de imágenes en memoria; gggg) en campos subsecuentes de vídeo usando la posiciones predichas de las plantillas de imágenes como punto de comienzo para determinar la posición actual de cada plantilla de imagen almacenada, hhhh) en campos subsecuentes de vídeo calculando un modelo de transformación usando las posiciones de plantilla determinadas para corresponder con la información de posición de referencia con la información de posición de imagen en aquellos campos subsecuentes; iiii) extrayendo las plantillas de imágenes de la memoria que no cumplan con ciertos criterios de retención de plantilla, y jjjj) obtener nuevas plantillas de imágenes de tales imágenes actuales para reemplazar las plantillas de imágenes que fueron extraídas .
MXPA/A/1999/004800A 1996-11-27 1999-05-24 Inserción de imágenes en corrientes de video usando una combinación de sensores fisicos y reconocimiento de patron MXPA99004800A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US038143 1996-11-27
US60/038143 1996-11-27

Publications (1)

Publication Number Publication Date
MXPA99004800A true MXPA99004800A (es) 2001-05-17

Family

ID=

Similar Documents

Publication Publication Date Title
US6100925A (en) Image insertion in video streams using a combination of physical sensors and pattern recognition
EP0943211B1 (en) Image insertion in video streams using a combination of physical sensors and pattern recognition
US5808695A (en) Method of tracking scene motion for live video insertion systems
JP3644688B2 (ja) ビデオ画像におけるビルボードの自動電子式置換方法および装置
EP0935886B1 (en) Method and apparatus for enhancing signal portions of a television broadcast of a live event
Guéziec Tracking pitches for broadcast television
US9756277B2 (en) System for filming a video movie
US6133946A (en) System for determining the position of an object
US5892554A (en) System and method for inserting static and dynamic images into a live video broadcast
EP0669758B1 (en) Time-varying image processor and display device
JP2015521419A (ja) コンピュータ生成された3次元オブジェクトとフィルムカメラからの映像フィードとをリアルタイムに混合または合成するシステム
CN107197200A (zh) 一种实现监控视频显示的方法及装置
WO1998024243A1 (en) Motion tracking using image-texture templates
KR20040053257A (ko) 몰입형 감시를 제공하기 위한 방법 및 장치
JP3526897B2 (ja) 画像表示装置
CN109120901A (zh) 一种摄像机间画面切换的方法
EP1250803B1 (en) Method and apparatus for real time insertion of images into video
MXPA99004800A (es) Inserción de imágenes en corrientes de video usando una combinación de sensores fisicos y reconocimiento de patron
CN117616760A (zh) 图像生成
Collins et al. Acquiring multi-view video with an active camera system
Tan Virtual imaging in sports broadcasting: an overview
JP2024108472A (ja) 情報処理装置およびデバイス情報導出方法
NZ624929B2 (en) System for filming a video movie
MXPA97010191A (es) Sistema y metodo para insertar imagenes estaticasy dinamicas en una transmision devideo en vivo
Kim et al. A UMPC based mixed reality system replacing a tour guide