MX2013008755A

MX2013008755A - Codificacion de secuencias de video basada en el tipo de escena.

Info

Publication number: MX2013008755A
Application number: MX2013008755A
Authority: MX
Inventors: Rodolfo Vargas Guerrero
Original assignee: Eye Io Llc
Priority date: 2011-01-28
Filing date: 2012-01-26
Publication date: 2014-01-31
Also published as: TWI578757B; JP2014511138A; WO2012103332A3; JP2017123649A; IL227674A; US20120195370A1; AU2012211249B2; EP2668785A4; BR112013020071A2; EP2668785A2; KR20140019335A; IL227674A0; AU2012211249A1; WO2012103332A2; TW201249210A; US9554142B2; CN103503454A; CA2825937A1

Abstract

En la presente se describe un codificador para codificar una secuencia de video o una imagen. El codificador recibe una secuencia de video de entrada y emite una secuencia de video codificada que se puede decodificar en un decodificador para recuperar, por lo menos aproximadamente, una instancia de la secuencia de video de entrada. El codificador codifica una secuencia de video en primer lugar identificando límites de escenas y codificando cuadros entre límites de escenas usando un grupo de parámetros. Para por lo menos dos secuencias de escenas diferentes, se usan grupos diferentes de parámetros, proporcionando una codificación basada en escenas, adaptativa.

Description

CODIFICACIÓN DE SECUENCIAS DE VIDEO BASADA EN EL TIPO DE ESCENA Referencia Cruzada a Solicitudes de Patentes Relacionadas Esta solicitud de patente reivindica prioridad de la Solicitud de Patente Provisoria Estadounidense N° 61/437.193, presentada el 28 de enero de 2011 y de la Solicitud de Patente Provisoria Estadounidense N° 61/437.211, presentada el 28 de enero de 2011, cuyos contenidos se incorporan expresamente como referencia en la presente .

Campo de la invención La presente invención se relaciona con técnicas de codificación de video y más específicamente, con la selección automática de parámetros de codificación de video para la codificación de video .

Antecedentes de la invención Si bien la popularidad de la difusión de video continúa creciendo y sigue aumentando su uso entre los usuarios cotidianos, existen varias limitaciones implícitas que es necesario resolver. Por ejemplo, los usuarios suelen querer mirar un video por Internet que tiene un ancho de banda sólo limitado para obtener esa secuencia de video. En algunos casos, los usuarios podrían querer obtener la secuencia de video por una conexión de teléfono móvil o una conexión inalámbrica hogareña. En algunas situaciones, los usuarios compensan la falta un ancho de banda suficiente mediante operaciones simultáneas periféricas en linea del contenido (es decir, la descarga del contenido al almacenamiento local para finalmente mirarlo) . Este método está repleto de varias desventajas. En primer lugar, el usuario no puede tener una experiencia de "tiempo de ejecución" real, es decir, el usuario no puede mirar un programa cuando decide mirarlo. En cambio, tiene que experimentar retardos importantes para el contenido que se debe someter a operaciones simultáneas periféricas en linea antes de mirar el programa. Otra desventaja está en la disponibilidad de almacenamiento, el prestador o el usuario tiene que explicar los recursos de almacenamiento para asegurar que el contenido sometido a operaciones simultáneas periféricas en linea que se puede almacenar, aún durante un corto periodo de tiempo, que deriva en la utilización innecesaria de recursos de almacenamiento costosos.

Una secuencia de video que normalmente contiene una parte de imagen y una parte de sonido puede necesitar un ancho de banda considerable, especialmente a una alta resolución (por ejemplo, videos en HD (alta definición) ) . El sonido normalmente necesita un ancho de banda mucho menor, pero aún algunas veces se necesita tenerlo en cuenta. Un enfoque de difusión de video es comprimir fuertemente la secuencia de video que permite la entrega rápida del video para permitir que un usuario mire el contenido en el tiempo de ejecución o sustancialmente en forma instantánea (es decir, sin experimentar retardos de operaciones simultáneas periféricas en linea sustanciales) . Normalmente, la compresión con pérdidas (es decir, la compresión que no es completamente reversible) provee mayor compresión que la compresión sin pérdidas, pero la compresión con pérdidas fuertes provee una experiencia de usuario indeseable.

Para reducir el ancho de banda necesario para transmitir señales de video digital, se conoce bien el uso de la codificación de video digital eficiente donde la velocidad de datos de una señal de video digital se puede reducir sustancialmente (con el fin de la compresión de datos de video) . Para asegurar la interoperabilidad, las normas de codificación de video han cumplido un papel fundamental en facilitar la adopción del video digital en muchas aplicaciones de profesionales y consumidores. Las normas más influyentes tradicionalmente se desarrollan por la Unión Internacional de Telecomunicaciones (ITU-T) o la comisión 15 del MPEG (Grupo de Expertos de Imágenes en Movimiento) de la ISO/IEC (la Organización Internacional de Normalización/Comisión Electrotécnica Internacional. Las normas de la ITU-T, denominadas recomendaciones, normalmente apuntan a las comunicaciones en tiempo real (por ejemplo, videoconferencia) .mientras que la mayor parte de las normas del MPEG se optimizan para el almacenamiento (por ejemplo, para el Disco Versátil Digital (DVD) y la transmisión (por ejemplo, para la norma de Transmisión de Video Digital (OVB) ) .

En la actualidad, , la mayor parte de los algoritmos de codificación de video normalizados están basados en la codificación de video híbrida. Los métodos de codificación de video híbrida normalmente combinan varios esquemas diferentes de compresión sin pérdida y con pérdida para lograr el aumento de compresión deseado. La codificación de video híbrida también es el fundamento para las normas de ITV-T (normas H.26x tales como H.261, H.263) así como las normas ISO/IEC (normas MPEG-X tales como MPEG-1, MPEG-2 y MPEG-4). La norma de codificación de video más reciente y avanzada es actualmente la norma indicada como codificación de video avanzada H.264/MPEG-4 (AVC) que es el resultado de los esfuerzos de normalización realizados por el equipo conjunto de video ( JVT) , un equipo conjunto de ITV-T y grupos de MPEG de ISO/IEC.

La norma H.264 emplea los mismos principios de la codificación de transformada híbrida compensada por el movimiento basado en bloques que se conocen a partir de las normas establecidas tales como MPEG-2. En consecuencia, la sintaxis de H.264 se organiza como la jerarquía de encabezados habitual, tal como encabezados de imagen, de segmento, y datos, tales como vectores de movimiento, coeficientes de transformada de bloque, escala de cuantificador, etc. Sin embargo, la norma H.264 separa la Capa de Codificación de Video (VCL) , que representa el contenido de los datos de video, y la Capa de Adaptación de Red (NAL) , que da un formato a los datos y provee información del encabezado.

Además, H.264 permite una elección muy aumentada de parámetros de codificación. Por ejemplo, permite una segmentación y manipulación más elaborada de macro-bloques de 16 x 16 por lo cual por ejemplo el proceso de compensación por movimiento se puede realizar al segmentar un macro-bloque tan pequeño como 4x4 de tamaño. Además, el proceso de selección para la predicción compensada por movimiento de un bloque de muestra puede comprender un número de imágenes decodificadas previamente almacenadas, en lugar de solamente las imágenes adyacentes. Aún con la intracodificación dentro de un solo cuadro, es posible formar una predicción de un bloque usando muestras decodificadas previamente del mismo cuadro. Además, el error de predicción resultante posterior a la compensación por movimiento se puede transformar y cuantificar basado en un tamaño de bloque de 4x4, en lugar del tamaño de 8x8 tradicional. Además, se puede usar un filtro de desbloqueo en bucle que reduce los artefactos de bloque .

La norma H.264 se puede considerar un superconj unto de la sintaxis de codificación de video de H.262/MPEG-2 en que usa la misma estructuración global de datos de video mientras que extiende el número de decisiones y parámetros de codificación posibles. Una consecuencia de tener una variedad de decisiones de codificación es que se puede conseguir una buena compensación entre la velocidad de bits y la calidad de la imagen. Sin embargo, aunque comúnmente se reconoce que si bien la norma H.264 puede reducir mucho los artefactos típicos de la codificación basada en bloques, también puede acentuar otros artefactos. El hecho de que H.264 permita un número aumentado de valores posibles para diferentes parámetros de codificación por lo tanto deriva en un potencial aumentado para mejorar el proceso de codificación pero también deriva . en una sensibilidad aumentada a la elección de los parámetros de codificación de video.

En forma similar a las demás normas, H.264 no especifica un procedimiento normativo para seleccionar parámetros de codificación de video, pero describe a través de una implementación de referencia, numerosos criterios que se pueden usar para seleccionar parámetros de codificación de video tales como para lograr una compensación adecuada entre la eficiencia de codificación, la calidad del video y la practicidad de implementación. Sin embargo, los criterios descritos no siempre pueden derivar en una selección óptima o adecuada de los parámetros de codificación adecuados para todos los tipos de contenidos y aplicaciones. Por ejemplo, los criterios pueden no derivar en la selección de parámetros de codificación de video óptimos o deseables para las características de la señal de video o los criterios pueden estar basados en lograr características de la señal codificada que no son apropiadas para la aplicación actual .

Por consiguiente, seria ventajoso un sistema mejorado para la codificación de video.

Los ejemplos precedentes del arte relacionado y las limitaciones relacionadas con ellos están destinados a ser ilustrativos y no excluyentes. Otras limitaciones del arte relacionado se harán evidentes al leer la memoria descriptiva y estudiar los dibujos.

Extracto de la invención La presente enseñanza contempla una variedad de métodos, sistemas y codificadores para codificar una secuencia de video. En la presente se presenta un codificador para codificar una secuencia de video. El codificador recibe una secuencia de video de entrada y emite una secuencia de video codificada que se puede decodificar en un decodificador para recuperar, por lo menos aproximadamente, una instancia de la secuencia de video de entrada. En algunas realizaciones de la presente invención, un codificador codifica una secuencia de video o una secuencia almacenada en primer lugar identificando algunos limites y codificando cuadros entre limites de escenas (es decir, una "secuencia de escenas" que comprende uno o más cuadros de imagen) usando un grupo de parámetros.

En una de las realizaciones de la presente invención, se puede identificar un cambio de escena en la secuencia de video donde la cámara repentinamente cambia de un ángulo de observación a otro de manera tal gue la diferencia entre dos cuadros en cada lado de un cambio de escena no es tan comprimible como otros cuadros disparados desde el mismo ángulo de observación. Para por lo menos dos secuencias de escenas diferentes, se usan grupos de parámetros diferentes, esto proporciona una codificación adaptativa, basada en la escena.

El presente Resumen se provee para presentar una selección de conceptos en una forma simplificada que también se describen a continuación en la Descripción Detallada. El presente Resumen no está destinado a identificar rasgos fundamentales o rasgos esenciales del objeto reivindicado y no está destinado a ser usado para limitar el alcance del objeto reivindicado.

Breve Descripción de los Dibujos Una o más realizaciones de la presente invención se ilustran a modo de ejemplo y no están limitadas por las figuras de los dibujos adjuntos, en donde las referencias similares indican elementos similares.

La Figura 1 ilustra un ejemplo de un codificador.

La Figura 2 ilustra los pasos de un método para codificar una secuencia de video de entrada.

La Figura 3 ilustra los pasos de un método para dividir una secuencia de video de entrada en una pluralidad de secuencias de escenas .

La Figura 4 ilustra los pasos de un método para determinar un tipo de escena de la secuencia de escenas.

La Figura 5 es un diagrama de bloques que explica la estimación de movimiento en un cuadro.

La Figura 6 es un diagrama de bloques de un sistema de procesamiento que se puede usar para implementar un codificador que implementa determinadas técnicas descritas en la presente.

Descripción Detallada de la Invención Ahora se describirán diferentes aspectos de la invención. La siguiente descripción proporciona detalles específicos para que se comprenda plenamente y permitir la descripción de estos ejemplos. Un experto en el arte entenderá, sin embargo, que la invención se puede practicar sin muchos de estos detalles. Además, algunas estructuras o funciones conocidas pueden no mostrarse o describirse detalladamente, de manera tal que se evite confundir innecesariamente la descripción pertinente. Aunque los diagramas ilustran componentes como funcionalmente separados, tal descripción tiene propósitos sólo ilustrativos. Será evidente para los expertos en el arte que los componentes retratados en las figuras se pueden combinar o dividir arbitrariamente en componentes por separado.

La terminología usada en la descripción presentada a continuación está destinada a interpretar en la forma razonable más amplia, aún cuando se use en conjunto con una descripción detallada de determinados ejemplos de la invención. Determinados términos pueden aún resaltarse a continuación; sin embargo, toda la terminología destinada a ser interpretada en cualquier forma restringida se definirá abierta y específicamente como tal en la sección de la Descripción Detallada.

Las referencias en la presente .memoria descriptiva a "una realización", "una de las realizaciones", o similares significan que el rasgo, la estructura o la característica específica que se está describiendo está incluida en por lo menos una de las realizaciones de la presente invención. Las apariciones de tales frases en la memoria descriptiva no necesariamente se refieren todas a la misma realización.

En una de las realizaciones de la presente invención, se proporciona un codificador para recibir una secuencia de video de entrada y emitir una secuencia de video codificada se puede decodificar en un decodificador para recuperar, por lo menos aproximadamente, una instancia de la secuencia de video de entrada. El codificador comprende un módulo de entrada para recibir una secuencia de video de entrada; un módulo de procesamiento de video para dividir la secuencia de video en una pluralidad de escenas basadas en los limites de la escena, en donde el módulo de procesamiento de video determina un limite de escena dado de acuerdo con la relación de dos cuadros de imagen temporalmente contiguos en la secuencia de video de entrada; el módulo de procesamiento de video para determinar también un tipo de escena para cada una de la pluralidad de escenas, cada tipo de escena está asociado con uno o más de una pluralidad de parámetros predeterminados del codificador usados por un codificador de video para codificar el tipo de escena dado; y un módulo de codificación de video para codificar cada una de la pluralidad de escenas de acuerdo con el tipo de escena asociado con cada una de la pluralidad de escenas.

De esta manera, el codificador puede codificar una secuencia de video de entrada a la calidad que mejor se adecúa a cada una de las escenas en la secuencia de video de entrada que se está codificando .

La Figura 1 ilustra un ejemplo de un codificador 100, de acuerdo con una realización de la presente invención. El codificador 100 recibe una secuencia de video de entrada 110 y emite una secuencia de video codificada 120 que se puede decodificar en un decodificador para recuperar, por lo menos aproximadamente, una instancia de la secuencia de video de entrada 110. El codificador 100 comprende un módulo de entrada 102, un módulo de procesamiento de video 104, y un módulo de codificación de video 106. El codificador 100 se puede implementar en un hardware, un software, o cualquier combinación de ellos. El codificador 100 puede incluir otros componentes tales como un módulo de entrada de parámetros, una memoria para almacenar parámetros, etc. El codificador 100 puede cumplir otras funciones de procesamiento de video que no se describen específicamente en la presente.

El módulo de entrada 102 recibe la secuencia de video de entrada 110. La secuencia de video de entrada 110 puede tomar cualquier forma adecuada y puede tener origen en cualquiera de una variedad de fuentes adecuadas tales como una memoria, aún en una carga en vivo .

El módulo de procesamiento de video 104 analiza una secuencia de video de entrada 110 y divide la secuencia de video 110 en una pluralidad de escenas junto con sus respectivos parámetros de codificación de video para cada una de la pluralidad de escenas. En una de las realizaciones, el módulo de procesamiento de video 104 divide la secuencia de video en una pluralidad de escenas basada en límites de escenas, en donde los límites de escenas se determinan de acuerdo con la relación de dos cuadros de imagen temporalmente contiguos en la secuencia de video de entrada. El módulo de procesamiento de video 104 también determina un tipo de escena para cada una de la pluralidad de escenas. Finalmente, el módulo de procesamiento de video 104 determina parámetros de codificación de video usados por el codificador de video 106 para codificar cada escena asociando cada tipo de escena con uno o más de una pluralidad de parámetros predeterminados del codificador. Los parámetros se pueden predefinir para cada tipo de escena, o se pueden calcular y/o adaptar durante el procesamiento de la secuencia de video. El módulo de codificación de video 106 recibe una pluralidad de escenas y sus respectivos parámetros de codificación de video del módulo de procesamiento de video 104 para codificar cada una de la pluralidad de escenas de acuerdo con sus respectivos parámetros de codificación y emitir una secuencia de video codificada 120.

La Figura 2 ilustra los pasos de un método 200 para codificar una secuencia de video de entrada. El método 200 codifica la secuencia de video de entrada a una secuencia de bits de video codificada que se puede decodificar en un decodificador para recuperar, por lo menos aproximadamente, una instancia de la secuencia de video. En el paso 210, el método recibe una secuencia de video de entrada que se debe codificar. En el paso 220, la secuencia de video se divide en una pluralidad de escenas basada en limites de escenas. En la presente, como se discute más detalladamente a continuación con referencia a la Figura 3, el método determina limites de escenas de acuerdo con la relación de dos cuadros de imagen temporalmente contiguas en la secuencia de video de entrada. Sin embargo, se puede utilizar cualquiera de una variedad de otros mecanismos adecuados para distinguir entre tipos de escena. Luego en el paso 230, el proceso determina un tipo de escena para cada una de la pluralidad de escenas. En el paso 240, el proceso determina parámetros de codificación de video para codificar cada escena mapeando cada tipo de escena con parámetros predeterminados apropiados del codificador, como también se discute más detalladamente a continuación. En el paso 250, el proceso codifica las escenas de acuerdo con los respectivos parámetros de codificación de video de cada escena (como, por ejemplo, se determina en el paso 240) . En el paso 260, el proceso emite la secuencia de bits de ' video codificado.

El proceso precedente se elabora más detalladamente en las siguientes secciones. La secuencia de video de entrada normalmente incluye varios cuadros de imagen. Cada cuadro de imagen normalmente se puede identificar basado en una "posición de tiempo" distinguible en la secuencia de video de entrada. En algunas realizaciones, la secuencia de video de entrada puede ser una secuencia que se pone a disposición del codificador en partes o segmentos discretos. En esos casos, el codificador emite la secuencia de bits de video (por ejemplo, a un dispositivo del consumidor tal como una HDTV (televisor de alta definición) ) como una secuencia en forma continua antes de siquiera recibir la secuencia de video de entrada completa.

En algunas realizaciones, la secuencia de video de entrada y la secuencia de bits de video codificada se almacenan como una secuencia de secuencias. En la presente, la codificación se puede realizar por adelantado en el tiempo y las secuencias de video codificadas luego se pueden difundir a un dispositivo -del consumidor en un tiempo posterior. En la presente, la codificación se realiza completamente en la secuencia de video completa antes de ser difundida por el dispositivo del consumidor. Se entiende que otros ejemplos de codificación previa, posterior, o "en linea" de secuencias de video, o combinaciones de ellas, que puede contemplar un experto en el arte, también están contemplados en conjunto con las técnicas presentadas en la presente.

En algunas realizaciones, los limites de escenas en una secuencia de video de entrada se determinan en primer lugar colocando en escala y eliminando todos los elementos de alta frecuencia presentes en cada cuadro de imagen. Luego, se determina la diferencia entre dos cuadros de imagen que son temporalmente contiguos uno a otro en la linea de tiempo de la secuencia de video de entrada. En algunos casos, por ejemplo, se puede determinar la diferencia entre dos imágenes usando filtros recursivos o adaptativos. Cuando la diferencia computada excede un umbral establecido que señala un cambio de escena, se determina que los dos cuadros de imagen forman parte de dos secuencias de escenas y en consecuencia, se establece un limite de escena entre los dos cuadros de imagen. Repitiendo el proceso de determinación del limite de escena entre cuadros de imagen temporalmente contiguos, la secuencia de video de entrada se puede dividir en, por ejemplo, un grupo ordenado de secuencias de escena .

En algunas realizaciones, como se ilustra con referencia a la Figura 2 precedente, se puede determinar un tipo de escena para cada una de la pluralidad de secuencias de escena en conjunto con el proceso de codificación. En algunos casos, un tipo de secuencia de escena se puede determinar utilizando uno o más de los siguientes parámetros de secuencia de escena: (i) posición de la secuencia de escena en la linea de tiempo de la secuencia de entrada; (ii) la duración de la secuencia de escena; (iii) su estimación de vector de movimiento; (iv) la diferencia efectiva de la secuencia de escena con los cuadros previos; (v) el tamaño de los datos espectrales de la secuencia de escena; (vi) el contenido textual de la escena determinado usando el reconocimiento óptico de caracteres; (vii) los atributos del guión de la escena basado en la información de la estructura del guión, etc. Además, en algunos casos, se puede usar el reconocimiento facial en la determinación de un tipo de escena para determinar si la secuencia de escena comprende rostros de personas .

Un tipo de escena dado puede incluir, por ejemplo, "movimiento rápido", "estática", "cabeza hablando", "texto", "títulos desplazados", "imágenes principalmente negras", "escena corta de cinco cuadros o menos", etc. En algunos casos, no se puede asignar un tipo de escena particular a las secuencias de escenas. En otras instancias, las secuencias de escenas asignadas podrían incluir tipos de escenas, "varios", "desconocidos", "por defecto", etc.

En algunas realizaciones, una vez que se asignan los tipos de escenas, se codifican las secuencias de escenas. En algunas instancias, tal codificación se realiza ejecutando un proceso de codificación con parámetros de acuerdo con un conjunto de instrucciones de software o de hardware. En la presente, en algunas instancias, se puede utilizar un conjunto de parámetros altamente optimizados para controlar detalles de la codificación de acuerdo con el tipo de escena. La pluralidad de parámetros podría almacenarse en una base de datos de tipos de escenas u otra estructura de datos o sistema de aprendizaje automático. En un ejemplo ilustrativo, una base de datos almacenada en la memoria y accesible por el codificador podría tener la estructura ilustrada en la Tabla 1. Los parámetros gue se usan para la codificación, pero que no se fijan específicamente en la base de datos de tipos de escenas, pueden utilizar un valor de parámetro por defecto determinado al comienzo del proceso de codificación. En algunas instancias, se puede determinar un valor de parámetro or defecto basado en un valor recomendado por una norma odificación utilizada para codificar la secuencia de video ntrada .

TABLA 1 La Figura 3 ilustra los pasos de un método o proceso 300 para determinar limites de escenas en una secuencia de video de entrada. En el paso 310, el proceso coloca en escala elementos de alta frecuencia desde un cuadro actual (i) y un cuadro previo (i- 1) para el cual se necesitan determinar los limites de escena. En por lo menos algunas realizaciones, en el paso 320, el proceso elimina elementos de alta frecuencia del cuadro actual (i) y el cuadro previo (i-1) . En una de las realizaciones, un codificador de transformada convierte los datos de pixeles de un cuadro de imagen en coeficientes de frecuencia. En el dominio de frecuencia, los datos de baja frecuencia tienen mayor importancia de percepción humana que los datos de alta frecuencia. Los pasos 310 y 320 permiten que el análisis esté basado en los elementos de baja frecuencia de percepción importante del cuadro.

En el paso 330, se computa un luma del cuadro actual (i) . El valor de luma, también denominado luminiscencia, representa el brillo de una imagen (la parte "en blanco y negro" o acromática de la imagen) En el paso 340, un valor de luma de una proyección se computa basada en el cuadro actual (i) y previo (i-1) . La proyección es aquella del cuadro actual (i) sobre un subespacio basado en el cuadro previo (i-1) . El subespacio se obtiene mediante una descomposición de valor singular del cuadro previo (i-1) .

En el paso 350, se computa un valor residual basado en la diferencia entre los valores de luma obtenidos en el paso 330 y 340. En el paso 360, el proceso filtra todos los valores residuales usando, por ejemplo, filtros recursivos o adaptativos y mapea el valor residual sobre una gama de calificación de 0 -1. El filtro adaptativo contribuye a filtrar todos los artefactos del valor residual en forma recursiva. En el paso 370, el proceso señala un cambio de escena y marca un limite de escena en la secuencia de video de entrada cuando la calificación normalizada es mayor que un primer valor umbral. En una de las realizaciones, un ejemplo de valor de dicho primer valor umbral es 0,65. En el paso 380, en algunas instancias, los pasos 310 a 370 se repiten para cada cuadro de la secuencia de video de entrada para dividir la secuencia de video de entrada en secuencias ordenadas de escenas .

La Figura 4 ilustra los pasos de un proceso 400 para determinar un tipo de escena para una secuencia de escenas dada. En el paso 410, el proceso determina una posición de la escena en la línea de tiempo de la secuencia de video de entrada. Basado en la posición de la escena, se asigna una calificación en una escala de, por ejemplo, 1-5. En un ejemplo ilustrativo, una calificación de 1 podría indicar que la escena está al inicio de la secuencia de video de entrada y una calificación de 5 podría indicar que la escena está al final de la secuencia de video de entrada.

En el paso 420, el proceso determina una duración de tiempo de reproducción de una secuencia de escena y asigna una calificación adecuada (por ejemplo, en una escala de 1-5) . En un ejemplo ilustrativo, una calificación de 1 podría significar una duración de la escena menor de 10 segundos y una calificación de 5 podría significar una escena de una longitud mayor de 50 segundos.

En el paso 430, el proceso realiza una estimación de movimiento en una secuencia de escenas y asigna una calificación adecuada (por ejemplo, en una escala de 1-5) . Por ejemplo, una calificación de 1 podría significar una escena con escasos o ningún vector de movimiento y una calificación de 5 podría significar una escena con vectores de movimiento importante a través de la escena. La Estimación de Movimiento (ME) es generalmente una técnica usada para explorar la redundancia temporal en secuencias de video durante la compresión. La redundancia temporal surge del hecho de que los cuadros vecinos muy frecuentemente comparten regiones de pixeles similares. En consecuencia, la meta de la Estimación de Movimiento es estimar el desplazamiento de tales regiones similares (macro-bloque ) a través de cuadros vecinos, que por lo tanto les permiten ser codificados en forma diferencial. En la Estimación de Movimiento basada en bloques, el desplazamiento de regiones similares está representado por vectores de movimiento, que se computan con un Algoritmo que Igualan Bloques.

En el paso 440, el proceso computa una diferencia efectiva entre la secuencia de escenas dada y una secuencia de escenas previa. Basado en la diferencia efectiva, el proceso asigna una calificación adecuada (por ejemplo, en una escala de 1-5) . En un ejemplo ilustrativo, una calificación de 1 puede indicar una escasa diferencia entre las escenas y una calificación de 5 puede indicar una diferencia mayor que el umbral de xyz. En ejemplos de instancias, la diferencia efectiva se puede computar usando los mismos principios de calificación descritos con referencia a los pasos 310 a 370.

En el paso 450, el proceso determina un tamaño de datos espectrales de la secuencia de escenas. Basado en el tamaño de datos espectrales, se asigna una calificación en una escala de, por ejemplo, 1-5. En un ejemplo ilustrativo, una calificación de 1 puede indicar una escena con datos espectrales bajos y una calificación de 5 puede indicar una escena con datos espectrales altos. En una de las realizaciones, las técnicas de codificación de transformada convierten datos de video en el dominio de frecuencia (o espectral), donde la gama de dominio de frecuencia de un cuadro de imagen representa el tamaño de datos espectrales. Un codificador de transformada convierte datos de pixeles de un cuadro de imagen en coeficientes de frecuencia. En el dominio de frecuencia, los datos de baja frecuencia tienen mayor importancia de percepción humana que los datos de alta frecuencia.

En el paso 460, el proceso opcionalmente (u obligatoriamente en algunos casos) realiza una búsqueda de estructuras de rostros en una secuencia de escenas usando, por ejemplo, un software de reconocimiento de rostros. Basado en los resultados de la búsqueda, se puede asignar una calificación, por ejemplo, en una escala de 1-5. En la presente, en un ejemplo ilustrativo, una calificación de 1 puede indicar ninguna estructura de rostro reconocida y una calificación de 5 puede indicar que una escena tiene un número alto de estructuras de rostros.

En el paso 470, el proceso realiza un reconocimiento óptico de caracteres (OCR) en la secuencia de escenas para identificar toda la información textual en la secuencia de escenas. El OCR contribuye a diferenciar entre el contenido gráfico y textual de un archivo de imagen. El OCR utiliza el reconocimiento de configuraciones, la inteligencia artificial y la visión por computadora para realizar la diferenciación. Basado en el análisis mediante OCR, el proceso asigna una calificación adecuada (por ejemplo, en una escala de 1-5) . En un ejemplo ilustrativ.o, una calificación de 1 puede indicar la ausencia de cualquier contenido textual en la secuencia de escenas y una calificación de 5 puede indicar un contenido textual que constituye por lo menos el 30 por ciento del contenido de la secuencia de escenas, es decir, los títulos de la película.

En el paso 480, el proceso determina la información estructural del guión asociada a la escena. En por lo menos algunas realizaciones, la información estructural del guión es un parámetro de atención relativa. Un parámetro de atención relativa se aproxima a la cantidad relativa de atención del observador que se debe esperar para una secuencia de escenas dada. En algunas instancias, el parámetro de atención relativa se aproxima a la cantidad relativa de la atención del observador que se debe esperar para un segmento de video dado del cual debe formar parte una secuencia de escenas dada. Basado en el análisis, el proceso asigna una calificación adecuada (por ejemplo, en una escala de 1-5) . En un ejemplo ilustrativo, una calificación de 1 puede indicar un bajo interés del observador en el contenido de la secuencia de escenas y una calificación de 5 puede indicar un alto interés del observador en la secuencia de escenas.

En el paso 490, el proceso determina un tipo de escena para la secuencia de escenas basada en las calificaciones de los pasos 410 a 480. En una de las realizaciones, la determinación del tipo de escena usando las calificaciones de los pasos 410 a 480 puede estar basada en un proceso de cascada. Un proceso de cascada es un proceso de toma de decisiones secuencial, de principio a fin, lineal, donde el proceso generalmente no revisita ninguna conclusión intermedia a la cual ha llegado a lo largo de su camino hacia la decisión final.

En un ejemplo ilustrativo, una escena que incluye títulos al final de una película generalmente tiene un texto que se mueve en la dirección ascendente o descendente. Tal secuencia de escenas normalmente tiene vectores de movimiento pequeño pero constante, calificados en 2 o menos, que apuntan hacia arriba o hacia abajo, según cuál sea la dirección del texto. Además, la secuencia de escenas normalmente incluye un texto en la forma de los títulos de la película, que constituyen, por ejemplo, más del 30% del contenido de la escena. El proceso de reconocimiento óptico de caracteres generalmente califica la escena en 4 o más. Dado que los títulos de la película generalmente forman parte de todas las películas y constituyen una parte fundamental de la línea de tiempo final de la película, el proceso de cascada en primer lugar verifica para ver si una escena es del tipo de "títulos desplazados" antes de realizar verificaciones para otros tipos de escenas. En el ejemplo, las calificaciones de 2 sugieren fuertemente que el tipo de escena involucrado es del tipo de "títulos desplazados" y por lo tanto la determinación del tipo de escena podría finalizar para la escena una vez que la escena se marca como tal. Si se determinara que el tipo de escena no es del tipo de "títulos desplazados", el proceso de cascada verifica la secuencia de escenas para ver si es de uno de los tipos de escenas diferente de los "títulos desplazados". Además, una vez que el proceso de cascada había hecho una determinación de que una escena dada no es de un tipo particular, el proceso generalmente nunca revaloriza la escena comparándola con ese tipo de escena particular.

En otro ejemplo ilustrativo, una escena que captura árboles de secoya generalmente comprende el follaje verde de los árboles y sus alrededores. El follaje normalmente constituiría la mayor parte del contenido de la escena. Tal escena tendría vectores de movimiento escasos o aleatorios ya que los propios árboles permanecen estáticos mientras que sus ramas y hojas tienen movimientos mínimos. La calificación de la estimación del movimiento estaría cerca de cero. Además, cualquier reconocimiento de texto en la escena generalmente sería una descripción breve de la escena, que deriva en una baja calificación de contenido textual. Sin embargo, el análisis espectral derivaría en una calificación alta, ya que el color verde del follaje de la escena se captura en el dominio de alta frecuencia de los datos espectrales. Como se discutió anteriormente, los datos espectrales de baja frecuencia tienen una mayor importancia de percepción humana que los datos de alta frecuencia, permitiendo la codificación de imágenes con una alta calificación de datos espectrales a una calidad más baja. Basado en las calificaciones, el proceso de cascada determina que la secuencia de escenas es de un tipo de "escena estática", que necesita una alta calidad de calificación en el primer cuadro seguido por una codificación residual de baja calidad y filtro de desbloqueo bajo.

La descripción precedente ilustró procesos para determinar limites de escenas y tipos de escenas. Con los fines de determinar tipos de escenas, en por lo menos algunas instancias, es útil determinar y analizar la estimación de movimiento en una escena para determinar la magnitud del movimiento, representada por vectores de movimiento, en una secuencia de escenas. La Figura 5 ahora ilustra un ejemplo de proceso de estimación de movimiento en una secuencia de escenas, como se explica más detalladamente en la presente. La Estimación de Movimiento (ME) es generalmente una técnica usada para explorar la redundancia temporal en secuencias de video durante la compresión. La redundancia temporal surge del hecho de que cuadros vecinos con mucha frecuencia comparten regiones de pixeles similares. En consecuencia, la meta de la Estimación de Movimiento es estimar el desplazamiento de dichas regiones similares (macro-bloque) a través de cuadros vecinos, por lo tanto les permite que se codifiquen en forma diferencial. En la Estimación de Movimiento basada en bloques, el desplazamiento de regiones similares está representado por vectores de movimiento, que se computa mediante un Algoritmo que Iguala los Bloques.

En una de las realizaciones, el Algoritmo que Iguala Bloques (BMA) busca bloques similares en un cuadro de imagen y genera los vectores de movimiento. El BMA usa un enfoque de búsqueda rápida, que mira solamente puntos específicos de la ventana de búsqueda, mientras se está buscando un bloque similar. En otro enfoque, denominado estimación de movimiento de resolución múltiple, la SE ME realiza en forma jerárquica, computando vectores de movimiento para una región de cuadro específica y refinándolos en cada nivel. La ME funciona con resoluciones diferentes de un cuadro, refinando sucesivamente los vectores de movimiento hallados. Otras estrategias miran el paralelismo hallazgos en los BMA, para ejecutar etapas de ME simultáneamente.

La Figura 5 ilustra un ejemplo de enfoque para la estimación de movimiento. En la presente, en algunas realizaciones, las imágenes de macrobloques de un cuadro que se hallan en cuadros posteriores (por ejemplo, cuadros en posiciones diferentes) se comunican usando un vector de movimiento. Las Figuras 5.1 y 5.2 representan el cuadro de referencia y el cuadro deseado respectivamente. Los cuadros se dividen en macrobloques, por ejemplo, de tamaños que están en la gama de 4x4 a 16x16. En algunas realizaciones, cada macrobloque del cuadro de referencia se compara con los macrobloques del cuadro deseado para detectar una igualdad entre cualquiera de los macrobloques. Las Figuras 5.3 y 5.4 ilustran el cuadro de referencia y el cuadro deseado, dividido en sus respectivos macrobloques, que se comparan uno con otro. La Figura 5.5 representa un macrobloque del cuadro de referencia que iguala un macrobloque en el cuadro deseado, aunque los macrobloques no están en la misma posición de la cuadrícula en sus respetivos cuadros. La Figura 5.6 representa vectores de movimiento que se generan mediante un codificador para comunicar una posición del macrobloque en el cuadro deseado con respecto a la posición del macrobloque en el cuadro de referencia. La estimación de movimiento por lo tanto contribuye a determinar los vectores de movimiento en una secuencia de escenas, lo cual permite la determinación del tipo de escena que se ha de ver influido por la magnitud de los vectores de movimiento en la secuencia de escenas.

La descripción precedente ilustró procesos para determinar el tipo de escena basado en la estimación de movimiento. Con los fines de determinar tipos de escenas, además de la estimación de movimiento, en por lo menos algunas instancias, es útil determinar y analizar ejemplos de información estructural asociados a una escena. La información estructural del guión utiliza la organización general de un argumento de película para determinar el tipo de escena apropiado, que permite la codificación correcta de una escena dada.

Una película generalmente está basada en un guión. El guión está estructurado de manera tal que capte la atención de la audiencia. La primera parte del guión de una película, denominado segmento de "morder y cambiar", es generalmente cuando la mayor parte de las personas deciden si miran o no la película completa. En consecuencia, en la presente se espera que la calidad de la imagen sea muy alta para no comprometer la experiencia de la audiencia que la mira. La parte siguiente del guión de una película, denominada el segmento de "desarrollo de personajes", generalmente reúne poca atención de la audiencia y en consecuencia puede ser de menor calidad de imagen que el segmento previo. El segmento posterior de la película generalmente constituye el argumento de la película, donde la atención de la audiencia es más alta comparado con el segmento previo. La calidad de la imagen tiene que ser más alta que la calidad previa. El segmento siguiente de la película es el "climax", que es la parte más importante de la película y la calidad de las imágenes necesita ser alta. El segmento final son los "títulos" de la película, que reúne muy baja atención de la audiencia. El segmento puede utilizar una imagen de más baja calidad sin afectar la experiencia de la audiencia que la mira.

En una de las realizaciones, la información estructural del guión usada para determinar los tipos de escenas podría estar basada en la línea de tiempo de la película. Por ejemplo, cuando una secuencia de escenas dada forma parte del inicio de la película, la secuencia de escenas se podría clasificar como una escena de "morder y cambiar", que reúne una alta atención de la audiencia. La secuencia de escenas se podría calificar con un 5 en la escala, que indica un alto interés de la audiencia. Como otro ejemplo, cuando una secuencia de escenas dada es de treinta minutos en la película, se podría asumir que el segmento de la película comprende un desarrollo de personajes. El segmento de desarrollo de personajes obtiene una baja atención de la audiencia. En consecuencia, cualquier secuencia de escenas que forme parte del desarrollo de personajes se podría calificar con un 2 o menos en la escala. La información de la línea de tiempo, por lo tanto, contribuye a determinar el tipo de escena.

En una de las realizaciones, la información estructural del guión usada para determinar tipos de escenas podría ser un parámetro de atención relativa, donde el parámetro de atención relativa se aproxima a un interés estimado del observador que se ha de esperar para un segmento dado de la secuencia de video de entrada. El observador podría predeterminar el parámetro de atención relativa o éste se podría basar en la entrada del director de la película. La información podría estar incluida en la secuencia de video de entrada como parte de los metadatos de la secuencia de video de entrada. Mediante el análisis gramatical de los metadatos, se podría determinar el parámetro de atención relativa. El parámetro de atención relativa predeterminado se podría definir para cada secuencia de escenas dada en la secuencia de video de entrada o para un segmento dado de la secuencia de video de entrada que comprende una pluralidad secuencias de escenas. Cuando el parámetro de atención relativa indica la alta atención de la audiencia, la calificación podría fijarse en 4 o más. Cuando el parámetro de atención relativa indica una baja atención de la audiencia, la calificación podría fijarse en 2 o menos. El parámetro de atención relativa por lo tanto podría utilizarse para determinar el tipo de escena.

En una de las realizaciones, la información estructural del guión usada para determinar tipos de escenas se podría basar en el contenido textual de la secuencia de escenas o podría basarse en el subtitulado cerrado asociado a la secuencia de escenas. En ambos casos, la información textual se usa para determinar la secuencia del guión de la película. La secuencia del guión luego se puede utilizar para determinar la atención de la audiencia para la escena dada, con una calificación de 1 para una escena de bajo interés y una calificación de 5 para una escena de alto interés. La información del contenido textual podría entonces utilizarse para determinar el tipo de escena.

En otra realización, la información estructural del guión usada para determinar tipos de escenas podría estar basada en el contenido de sonido asociado a la secuencia de escenas. El contenido de sonido podría ser, por ejemplo, el volumen (magnitud) del contenido de sonido, el habla humana, el silencio, el reconocimiento del lenguaje, la diferenciación del lenguaje, la calificación musical, efectos de sonido, el sonido ambiente, etc. En un ejemplo ilustrativo, el volumen del contenido de sonido se podría usar para determinar el segmento del guión del cual forma parte la secuencia de escenas. Los segmentos de acción de una película generalmente tienen un contenido de sonido fuerte asociado a ellos. El contenido de sonido fuerte es necesario para obtener la atención completa de la audiencia. Además, las escenas de acción normalmente comprenden efectos especiales, tales como explosiones, que generan el contenido de sonido fuerte. Por otra parte, los segmentos de la película asociados al desarrollo de personajes generalmente comprenden diálogos en la gama normal de la amplitud audible humana y pocos efectos especiales tales como explosiones. La atención de la audiencia normalmente es baja en la fase del desarrollo de personajes de la película. El volumen del contenido de sonido por lo tanto se puede utilizar para determinar la atención de la audiencia para una escena dada, con una calificación de 1 para una escena de baja amplitud y una calificación de 5 para una escena de alta amplitud. La amplitud (volumen) del contenido de sonido por lo tanto se utiliza para determinar el tipo de escena basado en la atención de la audiencia .

En otro ejemplo ilustrativo, los efectos de sonido asociados a una secuencia de escenas se pueden usar para determinar el segmento del guión del cual forma parte la secuencia de escenas. Los efectos de sonido especiales tales como el tempo creciente en el contenido de sonido generalmente se usan para indicar un desarrollo hasta un giro interesante en la película, una secuencia de acción vivificante, etc que reúnen una alta atención de la audiencia. Por otra parte, los efectos de sonido escasos están asociados a segmentos de la película que comprenden conversaciones. Los segmentos generalmente carecen de efectos de sonido ya que las conversaciones normalmente carecen de cambios de emociones dramáticos que se pueden resaltar más con los efectos de sonido. Los efectos especiales del contenido de sonido pueden entonces utilizarse para determinar la atención de la audiencia para una escena dada, con una calificación de 1 para una escena de pocos efectos de sonido y una calificación de 5 para una escena rica en efectos de sonido. Los efectos de sonido del contenido de sonido podrían entonces utilizarse para determinar el tipo de escena basado en la atención de la audiencia .

La Figura 6 es un diagrama de bloques de un sistema de procesamiento que se puede usar para implementar cualquiera de las técnicas descritas anteriormente, tal como un codificador. Obsérvese que en determinadas realizaciones, por lo menos algunos de los componentes ilustrados en la Figura 6 se pueden distribuir entre dos o más plataformas o cajas de computación físicamente separadas pero conectadas. El procesamiento puede representar una computadora de clase de servidor convencional, una computadora personal (PC), un dispositivo de comunicación móvil (por ejemplo, un teléfono inteligente) , o cualquier otro dispositivo de procesamiento/comunicación conocido o convencional.

El sistema de procesamiento 601 que se muestra en la Figura 6 incluye uno más procesadores 610, es decir una unidad de procesamiento central (CPU) , una memoria 620, por lo menos un dispositivo de comunicación 640 tal como un adaptador de Ethernet y/o un subsistema de comunicación inalámbrica (por ejemplo, un teléfono celular, WiFi, Bluetooth o similar) y uno o más dispositivos de entrada/salida 670, 680, todos conectados unos a otros a través de una interconexión 690.

El procesador (es ) 600 controla (n) la operación del sistema de computación 601 y puede ser o incluir uno o más microprocesadores de propósito general o de propósito especial programables, microcontroladores , circuitos integrados específicos de la aplicación (ASIC) , dispositivos lógicos programables (PLD) o combinaciones de dichos dispositivos. La interconexión 690 puede incluir una o más barras colectoras, conexiones directas y/u otros tipos de conexiones físicas, y puede incluir diferentes puentes, controladores y/o adaptadores tales como aquellos que son conocidos en el arte. La interconexión 690 también puede incluir una "barra colectora del sistema", que se puede conectar a través de uno o más adaptadores a una o más barras colectoras de expansión, tales como una forma de la barra colectora de Interconexión de Componentes Periféricos (PCI), la barra colectora de arquitectura industrial normal o de HiperTransporte (ISA), la barra colectora de interfaz pequeña de sistemas computacionales (SCSI) , la barra colectora serial universal (USB) , o la barra colectora de la norma 1394 del Instituto de Ingenieros Eléctricos y Electrónicos (IEEE) (algunas veces denominada "Firewire") .

La memoria 620 puede ser o incluir uno o más dispositivos de memoria de uno o más tipos, tales como la memoria de sólo lectura (ROM) , la memoria de acceso aleatorio (RAM) , la memoria flash, las unidades de discos, etc. El adaptador de red .640 es un dispositivo adecuado para permitir que el dispositivo de procesamiento 601 comunique datos con un sistema de procesamiento remoto en una conexión de comunicación, y puede ser, por ejemplo, un modem telefónico convencional, un modem inalámbrico, un modem de Linea de Abonado Digital (DSL), un modem de cable, un transceptor de radio, un transceptor satelital, un adaptador de Ethernet, o similares. Los dispositivos de entrada/salida 670, 680 pueden incluir, por ejemplo, uno o más dispositivos tales como: un dispositivo puntero tal como un mouse, una bola rodante, una palanca de juegos, una almohadilla sensible al tacto, o similar; un teclado; un micrófono con interfaz de reconocimiento de voz; altavoces de sonido; un dispositivo de presentación; etc. Obsérvese, sin embargo, que tales dispositivos de entrada/salida pueden ser innecesarios en un sistema que opera exclusivamente como un servidor y no provee ninguna interfaz de usuario directa, como es el caso con el servidor en por lo menos algunas realizaciones. Otras variaciones en el grupo de componentes ilustrados se pueden implementar en una forma consistente con la invención .

Un software y/o un firmware 630 para programar el procesador (es) 610 para llevar a cabo acciones descritas anteriormente se puede almacenar en la memoria 620. En determinadas realizaciones, se puede proporcionar tal software o firmware al sistema de computación 601 descargándolo desde un sistema remoto a través del sistema de computación 601 (por ejemplo, a través del adaptador de red 640) .

Las técnicas presentadas anteriormente se pueden implementar, por ejemplo, mediante un circuito programable (por ejemplo, uno o más microprocesadores) programado con un software y/o firmware, o completamente en un circuito de cable de propósito especial, o en una combinación de tales formas. El circuito de cable de propósito especial puede estar en la forma de, por ejemplo, uno o más circuitos integrados específicos de la aplicación (ASIC) , dispositivos lógicos programables (PLD), redes de compuertas programables en el campo (FPGA), etc.

El software o el firmware para su uso en la implementación de las técnicas presentadas en la presente se pueden almacenar sobre medio de almacenamiento legible por una máquina y se pueden ejecutar mediante uno o más microprocesadores programables de propósito general o de propósito especial. Un "medio de almacenamiento legible por una máquina", como se usa el término en la presente, incluye todos los mecanismos que pueden almacenar más información en una forma accesible por una máquina (una máquina puede ser, por ejemplo, una computadora, un dispositivo de red, un teléfono celular, una agenda digital (PDA), una herramienta de fabricación, cualquier dispositivo con uno o más procesadores, etc.). Por ejemplo, un medio de almacenamiento accesible por una máquina incluye medios grabables/no grabables (por ejemplo, una memoria de sólo lectura (ROM) , una memoria de acceso aleatorio (RAM) , medios de almacenamiento de disco magnético; medios de almacenamiento óptico; dispositivos de memoria flash; etc.), etc.

El término "lógica", como se usa en la presente, puede incluir, por ejemplo, un circuito programable programado con un software y/o firmware especifico, un circuito de cable de propósito especial, o una combinación de ellos.

La descripción precedente de diferentes realizaciones del objeto reivindicado se ha provisto con los fines de la ilustración y la descripción. No se desea ser taxativo o limitar el objeto reivindicado a las formas precisas reveladas. Muchas modificaciones y variaciones serán evidentes para el experto en el arte. Se eligieron y describieron realizaciones para describir mejor los principios de la invención y su aplicación práctica, permitiendo de ese modo que otros expertos en el arte comprendan el objeto reivindicado, las diferentes realizaciones y con diferentes modificaciones que son adecuadas para el uso particular contemplado.

Las enseñanzas de la invención provistas en la presente se pueden aplicar a otros sistemas, no necesariamente el sistema descrito anteriormente. Los elementos y actos de las diferentes realizaciones descritas anteriormente se pueden combinar para proporcionar otras realizaciones.

Si bien la descripción precedente describe determinadas realizaciones de la invención, y describe la mejor modalidad contemplada, no importa cuán detallado aparece lo anterior en el texto, la invención se puede practicar en muchas formas. Los detalles del sistema pueden variar considerablemente en sus detalles de implementación, aunque están abarcados por la invención revelada en la presente. Como se indicó anteriormente, la terminología particular usada cuando se describe determinadas características o aspectos de la invención no se debe tomar que implica que la terminología se está redefiniendo en la presente para ser restringida a ninguna característica, rasgo o aspecto de la invención con la cual está asociada esa terminología. En general, no se debe interpretar que los términos usados en las siguientes reivindicaciones limitan la invención a las realizaciones específicas reveladas en la memoria descriptiva, a menos que la sección de la Descripción Detallada precedente defina explícitamente esos términos. Por consiguiente, el alcance real de la invención comprende no solamente las realizaciones reveladas, sino también todas las formas equivalentes de poner en práctica o implementar la invención de acuerdo con las reivindicaciones .

Claims

REIVINDICACIONES

1. Un método para codificar una secuencia de video usando tipos de escenas cada una de las cuales tiene un conjunto predefinido de una o más de una pluralidad de parámetros del codificador usados por un codificador de video para codificar cualquier tipo de escena dado, el método comprende: recibir una secuencia de video de entrada; dividir la secuencia de video de entrada en una pluralidad de escenas basado en limites de escenas, cada escena comprende una pluralidad de cuadros de imagen temporalmente contiguos, en donde un limite de escena dado se determina de acuerdo con la relación de dos cuadros de imagen temporalmente contiguos o la secuencia de video de entrada; determinar el tipo de escena para cada una de la pluralidad de escenas; y codificar cada una de la pluralidad de escenas de acuerdo con el tipo de escena.

2. El método para codificar una secuencia de video de acuerdo con la reivindicación 1, en donde cada tipo de escena se determina basado en uno o más criterios, uno o más criterios incluyen : una posición de una escena dada en la linea de tiempo de la secuencia de video de entrada; una duración de la escena dada; una estimación de movimiento en la escena dada; una diferencia efectiva de la escena dada con una escena previa ; un tamaño de datos espectrales de la escena dada; un reconocimiento óptico de caracteres en la escena dada; o una información de estructura de guión de la escena dada.

3. El método para codificar una secuencia de video de acuerdo con la reivindicación 1, en donde la determinación de un tipo de escena además comprende utilizar el reconocimiento de rostros.

4. El método de acuerdo con la reivindicación 2, en donde la información de la estructura del guión incluye un parámetro de atención relativa, en donde el parámetro de atención relativa se aproxima a una estimación predeterminada de una cantidad relativa de la atención del observador que se ha de esperar para un segmento de la secuencia de video de entrada que comprende la escena dada.

5. El método de acuerdo con la reivindicación 2, en donde la información de la estructura del guión además incluye uno o más de: una definición de gama de tiempo; una información textual de la escena dada; un contenido de sonido asociado a la escena dada; una información de subtitulado cerrado asociada a la escena dada ; o metadatos asociados a la escena dada.

6. El método para codificar una secuencia de video de acuerdo con la reivindicación 1, en donde un tipo de escena dado incluye uno o más de: un movimiento rápido; una escena estática; una cabeza hablando; un texto; imágenes principalmente negras; escenas cortas; títulos desplazados; una escena de titulo; varios; o por defecto.

7. El método para codificar una secuencia de video de acuerdo con la reivindicación 1, que además comprende: determinar que un primer cuadro de imagen es temporalmente contiguo a un segundo cuadro de imagen cuando el primer cuadro de imagen tiene por lo menos una posición adyacente al segundo cuadro de imagen en la linea de tiempo de la secuencia de video de entrada.

8. El método para codificar una secuencia de video de acuerdo con la reivindicación 1, en donde la determinación de la relación de dos cuadros de imagen temporalmente contiguos en la secuencia de video de entrada comprende: colocar en escala uno o más elementos de alta frecuencia de cada cuadro de imagen; eliminar uno o más elementos de alta frecuencia de cada cuadro de imagen; analizar los cuadros de imagen para determinar una diferencia entre cuadros de imagen temporalmente contiguos, en donde se computa una calificación basado en la diferencia; e identificar un nivel de falta de relación entre los cuadros de imagen cuando la calificación excede un limite prefijado, en donde la calificación de limite prefijado está en un umbral donde ocurre un cambio de escena.

9. El método de acuerdo con la reivindicación 8, en donde se sigue la diferencia con un filtro recursivo o un filtro adaptativo .

10. El método para codificar una secuencia de video de acuerdo con la reivindicación 1, en donde los parámetros predeterminados del codificador incluyen uno o más de: una búsqueda de gama de estimación de movimiento; un factor de cantidad de desbloqueo; un cuantificador ; o números de cuadros de referencia.

11. Un método para codificar una secuencia de video usando tipos de escenas cada uno de los cuales tiene un grupo predefinido de una o más de la pluralidad de parámetros del codificador usados por un codificador de video para codificar cualquier tipo de escena dada, el método comprende: recibir una secuencia de video de entrada; recibir información de limite de escena que indica posiciones en la secuencia de video de entrada donde ocurren transiciones de escenas, en donde una transición de escena se determina basado en la relación de dos cuadros de imagen temporalmente contiguos en la secuencia de video de entrada; dividir la secuencia de video de entrada en una pluralidad de escenas basado en la información de limite de escena, cada escena comprende una pluralidad de cuadros de imagen temporalmente contiguos; determinar un tipo de escena para cada una de la pluralidad de escenas; y codificar cada una de la pluralidad de escenas de acuerdo con el tipo de escena.

12. El método para codificar una secuencia de video de acuerdo con la reivindicación 11, en donde cada tipo de escena se determina basado en uno o más criterios, uno o más criterios incluyen : la posición de una escena dada en la linea de tiempo de la secuencia de video de entrada; una duración de la escena dada; una estimación de movimiento en la escena dada; una diferencia efectiva en la escena dada con una escena previa ; un tamaño de datos espectrales de la escena dada; un reconocimiento óptico de caracteres en la escena dada; o una información de la estructura del guión de la escena dada .

13. El método de acuerdo con la reivindicación 12, en donde la información de la estructura del guión incluye un parámetro de atención relativa, en donde el parámetro de atención relativa se aproxima a una estimación predeterminada de una cantidad relativa de la atención del observador que se debe esperar para un segmento de la secuencia de video de entrada que comprende la escena dada.

14. El método de acuerdo con la reivindicación 12, en donde la información de la estructura del guión además incluye uno o más de: una definición de gama de tiempo; una información textual de la escena dada; un contenido de sonido asociado a la escena dada; una información de subtitulado cerrado asociada a la escena dada ; o metadatos asociados a la escena dada.

15. El método para codificar una secuencia de video de acuerdo con la reivindicación 12, en donde la determinación de un tipo de escena además comprende utilizar el reconocimiento de rostros.

16. El método para codificar una secuencia de video de acuerdo con la reivindicación 11, en donde un tipo de escena dada incluye uno o más de: un movimiento rápido; una escena estática; una cabeza hablando; un texto; títulos desplazados; una escena de título; imágenes principalmente negras; o una escena corta.

17. El método para codificar una secuencia de video de acuerdo con la reivindicación 11, en donde un primer cuadro de imagen es temporalmente contiguo a un segundo cuadro de imagen cuando el primer cuadro de imagen tiene por lo menos una posición adyacente al segundo cuadro de imagen en la línea de tiempo de la secuencia de video de entrada.

18. El método para codificar una secuencia de video de acuerdo con la reivindicación 11, en donde los parámetros predeterminados del codificador incluye uno o más de: una búsqueda de gama de estimación de movimiento; un factor de cantidad de desbloqueo; un cuantificador ; o números de cuadro de referencia.

19. Un aparato de codificación de video para codificar una secuencia de video usando tipos de escenas cada uno de los cuales tiene un grupo predefinido de uno o más de la pluralidad de parámetros del codificador usados por el codificador de video para incluir cualquier tipo de escena dada, el aparato comprende: un módulo de entrada para recibir una secuencia de video de entrada; un módulo de procesamiento de video para dividir la secuencia de video en una pluralidad de escenas basado en limites de escenas, cada escena comprende una pluralidad de cuadros de imagen temporalmente contiguos, en donde el módulo de procesamiento de video determina un limite de escena dado de acuerdo con la relación de dos cuadros de imagen temporalmente contiguos en la secuencia de video de entrada; el módulo de procesamiento de video para determinar un tipo de escena para cada una de la pluralidad de escenas; y un módulo de codificación de video para codificar cada una de la pluralidad de escenas de acuerdo con el tipo de escena .

20. El aparato de codificación de video de acuerdo con la reivindicación 19, en donde el módulo de procesamiento de video determina cada tipo de escena basado en uno o más criterios, uno o más criterios incluye: la posición de una escena dada en la linea de tiempo de la secuencia de video de entrada; una duración de la escena dada; una estimación de movimiento en la escena dada; una diferencia efectiva en la escena dada con una escena previa ; un tamaño de datos espectrales de la escena dada; un reconocimiento óptico de caracteres en la escena dada; o una información de la estructura del guión de la escena dada .

21. El aparato de codificación de video de acuerdo con la reivindicación 20, en donde la información de la estructura del guión utilizada por el aparato de codificación de video incluye un parámetro de atención relativa, en donde el parámetro de atención relativa se aproxima a una estimación predeterminada de una cantidad relativa de la atención del observador que se debe esperar para un segmento de la secuencia de video de entrada que comprende la escena dada.

22. El aparato de codificación de video de acuerdo con la reivindicación 20, en donde la información de la estructura del guión utilizada por el aparato de codificación de video además incluye uno o más de: una definición de la gama de tiempo; una información textual de la escena dada; un contenido de sonido asociado a la escena dada; una información de subtitulado cerrado asociado a la escena dada ; y metadatos asociados a la escena dada.

23. El aparato de codificación de video de acuerdo con la reivindicación 20, en donde el módulo de procesamiento de video utiliza el reconocimiento de rostros para determinar el tipo de escena.

24. El aparato de codificación de video de acuerdo con la reivindicación 19, en donde un tipo de escena dado asignado por el módulo de procesamiento de video incluye uno o más de: un movimiento rápido; una escena estática; una cabeza hablando; un texto; imágenes principalmente negras; una escena corta; títulos desplazados; una escena de titule- varios; o por defecto.

25. El aparato de codificación de video de acuerdo con la reivindicación 19, en donde el módulo de procesamiento de video además comprende: determinar que un primer cuadro de imagen es temporalmente contiguo a un segundo cuadro de imagen cuando el primer cuadro de imagen tiene por lo menos una posición adyacente al segundo cuadro de imagen en la línea de tiempo de la secuencia de video de entrada.

26. El aparato de codificación de video .de acuerdo con la reivindicación 19, en donde la determinación por el módulo de procesamiento de video, de la relación de dos cuadros de imagen temporalmente contiguos en la secuencia de video de entrada comprende : colocar en escala uno o más elementos de alta frecuencia de cada cuadro de imagen; eliminar uno o más elementos de alta frecuencia de cada cuadro de imagen; analizar los cuadros de imagen para determinar una diferencia entre cuadros de imagen temporalmente contiguos, en donde se computa una calificación basada en la diferencia; e identificar un nivel de falta de relación entre los cuadros de imagen cuando la calificación excede un limite prefijado, en donde la calificación de límite prefijado está en un umbral donde ocurre un cambio de escena.

27. El aparato de codificación de video de acuerdo con la reivindicación 26, en donde el módulo de procesamiento de video utiliza uno de un filtro recursivo o un filtro adaptativo para seguir las diferencias.

28. ?? aparato de codificación de video de acuerdo con la reivindicación 19, en donde los parámetros predeterminados del codificador utilizados por el módulo de codificación de video incluye uno o más de: una búsqueda de gama de estimación de movimiento; un cuantificador ; o números de cuadros de referencia.

29. Un aparato de codificación de video para codificar una secuencia de video usando tipos de escenas cada una de las cuales tiene un grupo predeterminado de uno o más de una pluralidad de parámetros usados por el codificador de video para codificar cualquier tipo de escena dado, el aparato comprende: medio de recepción para recibir una secuencia de video de entrada; medio de división para dividir la secuencia de video de entrada en una pluralidad de escenas basado en limites de escenas, cada escena comprende una pluralidad de cuadros de imagen temporalmente contiguos, en donde el medio de división determina un limite de escena dado de acuerdo con la relación de dos cuadros de imagen temporalmente contiguos en la secuencia de video de entrada; medio de determinación para determinar un tipo de escena para cada una de una pluralidad de escenas, cada tipo de escena está asociado a uno o más de una pluralidad de parámetros predeterminados del codificador usados por un codificador de video para codificar el tipo de escena dado; y medio de codificación para codificar cada una de la pluralidad de escenas basado en los parámetros del codificador determinados previamente que se determinaron de acuerdo con el tipo de escena asociado a cada una de la pluralidad de escenas.

30. Un método para codificar una secuencia de video usando tipos de escenas cada una de las cuales tiene un grupo predefinido de uno o más de una pluralidad de parámetros del codificador usados por un codificador de video para codificar cualquier tipo de escena dado, el método comprende: recibir una secuencia de video de entrada; dividir la secuencia de video de entrada en una pluralidad de escenas basado en limites de escenas, cada escena comprende una pluralidad de cuadros de imaqen temporalmente contiguos, en donde un limite de escena dado se determina de acuerdo con una información de la estructura del guión de la secuencia de video de entrada; determinar un tipo de escena para cada una de la pluralidad de escenas; y codificar cada una de la pluralidad de escenas de acuerdo con el tipo de escena.

31. El método para codificar una secuencia de video de acuerdo con la reivindicación 30, que además comprende: determinar que un primer cuadro de imagen es temporalmente contiguo a un segundo cuadro temporalmente contiguo cuando el primer cuadro de imagen tiene por lo menos una posición adyacente al segundo cuadro de imagen en la linea de tiempo de la secuencia de video de entrada.

32. El método de acuerdo con la reivindicación 30, en donde la información de la estructura del guión incluye un parámetro de atención relativa, en donde el parámetro de atención relativa se aproxima a una estimación predeterminada de una cantidad relativa de la atención del observador que se debe esperar para cada uno de una pluralidad de segmentos de video de la secuencia de video de entrada, en donde cada uno de la pluralidad de segmentos de video podría comprender una pluralidad de escenas.

33. El método de acuerdo con la reivindicación 30, en donde la información de la estructura del guión además incluye uno o más de: una definición de gama de tiempo; una información textual de la escena dada; un contenido de sonido asociado a la escena dada; una información de subtitulado cerrado asociada a la escena dada ; o metadatos asociados a la escena dada.

34. El método para codificar una secuencia de video de acuerdo con la reivindicación 30, en donde un tipo de escena dado incluye uno o más de: una escena de acción; una escena de cámara lenta; una escena de titule- una escena de abertura; una escena de títulos; una escena de disparo de cabeza; o una escena de diálogo.