BRPI1006026B1

BRPI1006026B1 - método e aparelho para alteração do formato de lábio e obtenção de animação de lábio em animação acionada por voz

Info

Publication number: BRPI1006026B1
Application number: BRPI1006026A
Authority: BR
Inventors: Wang Jianyu; Lu Yisha
Original assignee: Tencent Tech Shenzhen Co Ltd
Priority date: 2009-01-19
Filing date: 2010-01-05
Publication date: 2020-04-07
Also published as: RU2487411C2; RU2011124736A; CA2744347C; WO2010081395A1; US8350859B2; BRPI1006026A2; MX2011006703A; CN101482976A; US20110227931A1; CA2744347A1; BRPI1006026A8; CN101482976B

Abstract

método e aparelho para alteração do formato de lábio e obtenção de animação de lábio em animação acionada por voz. a presente invenção refere-se a um método e a um aparelho para alteração do formato do lábio e obter uma animação de lábio em uma animação acionada por voz e refere-se a tecnologias de computador. o método para alteração do formato de lábio inclui: obter sinais de áudio e obter proporção de extensão de movimento do formato do lábio de acordo com as características dos sinais de áudio; obter um modelo de formato do lábio original inserido por um usuário e gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio; gerar um conjunto de modelo de grid do formato do lábio de acordo com o valor de extensão de movimento do formato do lábio obtido e uma biblioteca de modelo de pronúncia de lábio pré-configurada. o método para alteração do formato do lábio em uma animação acionada por voz inclui um módulo de obtenção, um primeiro módulo de geração e um segundo módulo de geração. as soluções fornecidas pela presente invenção têm um algoritmo simples e de baixo custo.

Description

Relatório Descritivo da Patente de Invenção para MÉTODO E APARELHO PARA ALTERAÇÃO DO FORMATO DE LÁBIO E OBTENÇÃO DE ANIMAÇÃO DE LÁBIO EM ANIMAÇÃO ACIONADA POR VOZ.

Campo da Invenção [001] A presente invenção refere-se a tecnologias de animação baseadas em vídeo e, mais particularmente, a um método e aparelho para alteração do formato de lábio e obtenção de uma animação de lábio em uma animação acionada por voz.

Antecedentes da Invenção [002] Resposta de Voz Interativa (Interactive Voice Response IVR) é um produto baseado em transmissão de voz. A maioria dos usuários da Internet apreciam autoapresentação e assistir personalidades. Dessa forma, é necessário aprimorar a IVR em ambas as tecnologias e filosofia, por exemplo, fazer a voz ter melhor expressão, o que pode ser implementado por tecnologias de animação baseadas em vídeo. As tecnologias de animação baseadas em vídeo tomam um telefone móvel ou uma página da web como uma plataforma, na qual a voz é configurada com uma animação baseada em vídeo autodefinida, de modo a conferir à voz uma expressão vívida.

[003] Nas tecnologias de animação baseadas em vídeo, uma tecnologia para alteração do formato do lábio em uma animação acionada por voz é uma parte importante. Na técnica anterior, é proporcionada uma solução, na qual sinais de áudio são mapeados ao formato do lábio de parâmetros de animação facial usando um modo de Aprendizado da Máquina. Mas o algoritmo dessa solução é complexo e o custo de cálculo é alto.

Sumário da Invenção [004] Exemplos da presente invenção proporcionam um método e aparelho para alteração do formato do lábio e obtenção de uma

Petição 870190118447, de 14/11/2019, pág. 5/37

2/18 animação de lábio em uma animação acionada por voz, de modo a simplificar o algoritmo de alteração do formato do lábio em uma animação acionada por voz e reduzir o custo de cálculo.

[005] As soluções técnicas são implementadas como segue.

[006] Exemplos da presente invenção proporcionam um método para alteração do formato do lábio em uma animação acionada por voz incluindo:

[007] obtenção de sinais de áudio e obtenção de proporção de extensão de movimento do formato do lábio de acordo com as características dos sinais de áudio;

[008] obtenção de um modelo do formato do lábio original inserido por um usuário e geração de um valor de extensão de movimento do formato do lábio de acordo com o modelo do formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio; e [009] geração de um modelo de grade do formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de conjunto de modelo de pronúncia do lábio préconfigurada.

[0010] Exemplos da presente invenção também proporcionam um aparelho para alteração do formato do lábio em uma animação acionada por voz, incluindo:

[0011] um módulo de obtenção configurado para obter sinais de áudio e obter proporção de extensão de movimento do formato do lábio de acordo com as características dos sinais de áudio;

[0012] um primeiro módulo de geração configurado para obter um modelo do formato do lábio original inserido por um usuário e gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo do formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio; e [0013] um segundo módulo de geração configurado para gerar um

Petição 870190118447, de 14/11/2019, pág. 6/37

3/18 conjunto de modelo de grid de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio pré-configurada.

[0014] Nos exemplos da presente invenção, ao usar a biblioteca de modelo de pronúncia de lábio, o formato do lábio é alterado baseado na voz; comparado com a técnica anterior, as soluções técnicas proporcionadas pelos exemplos da presente invenção têm um algoritmo simples e de baixo custo.

[0015] Exemplos da presente invenção também proporcionam um método para obtenção de uma animação de lábio em uma animação acionada por voz, incluindo:

[0016] obtenção de sinais de áudio e obtenção de proporção de extensão de movimento do formato do lábio de acordo com as características dos sinais de áudio;

[0017] obtenção de um modelo de formato do lábio original inserido por um usuário e geração de um valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio;

[0018] geração de um conjunto de modelo de grid do formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio préconfigurada; e [0019] geração de uma animação de lábio de acordo com a configuração do modelo de grid do formato do lábio.

[0020] Exemplos da presente invenção também proporcionam um aparelho para obtenção de uma animação de lábio em uma animação acionada por voz, incluindo:

[0021] um módulo de obtenção configurado para obter sinais de áudio e obter proporção de extensão de movimento do formato do lábio de acordo com as características dos sinais de áudio;

Petição 870190118447, de 14/11/2019, pág. 7/37

4/18 [0022] um primeiro módulo de geração configurado para obter um modelo de formato do lábio original inserido por um usuário e gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo do formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio;

[0023] um segundo módulo de geração configurado para gerar um conjunto de modelo de grid do formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio pré-configurada; e [0024] um terceiro módulo de geração configurado para gerar uma animação de lábio de acordo com o modelo de grid de formato do lábio configurado.

[0025] Nos exemplos da presente invenção, usando a biblioteca de modelo de pronúncia de lábio, o formato do lábio é alterado baseado na voz; comparado com a técnica anterior, soluções fornecidas pelos exemplos da presente invenção têm um algoritmo simples e de baixo custo.

Breve Descrição dos Desenhos [0026] De forma a tornar as soluções técnicas nos exemplos da presente invenção ou as soluções técnicas na técnica anterior mais claras, os desenhos usados nos exemplos ou usados na técnica anterior serão descritos de maneira simples. Obviamente, os desenhos descritos abaixo são apenas alguns exemplos da presente invenção e aqueles versados no campo podem entender que outros desenhos podem ser obtidos de acordo com esses desenhos sem trabalho criativo.

[0027] A figura 1 é um fluxograma ilustrando um método para alteração do formato do lábio em uma animação acionada por voz de acordo com um primeiro exemplo da presente invenção.

[0028] A figura 2 é um fluxograma ilustrando o número de quadros

Petição 870190118447, de 14/11/2019, pág. 8/37

5/18 de vídeo e a proporção de extensão de movimento do formato do lábio de acordo com o primeiro exemplo da presente invenção.

[0029] A figura 3 é um diagrama esquemático ilustrando uma biblioteca de modelo de pronúncia de lábio de acordo com o primeiro exemplo da presente invenção.

[0030] A figura 4 é um fluxograma ilustrando um método para obtenção de uma animação de lábio em uma animação acionada por voz de acordo com um segundo exemplo da presente invenção.

[0031] A figura 5 é um diagrama esquemático ilustrando um aparelho para alteração do formato do lábio em uma animação acionada por voz de acordo com o terceiro exemplo da presente invenção.

[0032] A figura 6 é um diagrama esquemático ilustrando outro aparelho para alteração do formato do lábio em uma animação acionada por voz de acordo com o terceiro exemplo da presente invenção.

[0033] A figura 7 é um diagrama esquemático ilustrando outro aparelho para alteração do formato de lábio em uma animação acionada por voz de acordo com o terceiro exemplo da presente invenção.

[0034] A figura 8 é um diagrama esquemático ilustrando um aparelho para obtenção de uma animação de lábio de acordo com um quarto exemplo da presente invenção.

Descrição Detalhada da Invenção [0035] De forma a tornar as finalidades, soluções e méritos da invenção mais claros, a presente invenção será ilustrada em detalhes aqui depois com referência aos desenhos em anexo. Obviamente, os exemplos descritos abaixo são apenas exemplos parciais da presente invenção, ao invés de todos os exemplos. Baseado nos exemplos da presente invenção, outros exemplos obtidos por aqueles versados no campo sem trabalho criativo pertencem ao escopo de proteção da presente invenção.

[0036] O primeiro exemplo da presente invenção proporciona um

Petição 870190118447, de 14/11/2019, pág. 9/37

6/18 método para alteração do formato do lábio baseado na voz. Conforme mostrado na figura 1, o método inclui as etapas a seguir.

[0037] Etapa 101, sinais de áudio são obtidos e a proporção de extensão de movimento do formato do lábio é obtida de acordo com características dos sinais de áudio.

[0038] Especificamente, a etapa de obtenção de proporção de extensão de movimento do formato do lábio de acordo com as características dos sinais de áudio inclui as etapas a seguir.

[0039] Etapa 101A, os sinais de áudio são cruzados e um valor de dados de amostra máximo, Valor maxSample, dos sinais de áudio é obtido.

[0040] Etapa 101B, os sinais de áudio são divididos em janelas, cada janela é dividida em grupos, uma média dos valores de dados de amostra em cada grupo é obtida, um grupo médio, avgGroup, de cada janela é obtido, onde o grupo médio avgGroup inclui médias correspondendo a grupos na janela; um valor máximo entre o grupo médio avgGroup de cada janela é obtido e um grupo máximo, windowPeak, o qual compreende valores máximos que corresponde à todas as janelas é obtido.

[0041] Uma sílaba é uma unidade básica de voz. Especificamente, na China, cada sílaba corresponde a um tipo de formato do lábio e leva 200 a 300 milissegundos para pronunciar uma sílaba em um procedimento de pronúncia uniforme. Pode haver uma alteração de voz no decorrer de pronúncia de cada sílaba, de modo que é necessário dividir a sílaba em fonemas. De acordo com o princípio acima, os sinais de áudio obtidos são divididos em janelas com um determinado comprimento e cada janela corresponde a uma sílaba; cada janela é ainda dividida em grupos com um determinado comprimento e cada grupo corresponde a um fonema. Supondo que leva x segundos para pronunciar a sílaba e o comprimento da janela é WindowLen,

Petição 870190118447, de 14/11/2019, pág. 10/37

7/18

WindowLen = x * taxa de amostragem de áudio; supondo que leva x segundos para pronunciar o fonema e o comprimento do grupo é GroupLen, GroupLen = y * taxa de amostragem de áudio.

[0042] Especificamente, a média dos valores de dados de amostra em cada grupo é igual à soma de todos os valores de dados de amostra no grupo dividido por GroupLen e a média é colocada no grupo médio, avgGroup; um valor máximo do grupo médio avgGroup é obtido e é colocado em um grupo máximo windowPeak.

[0043] Opcionalmente, de forma a evitar movimento desnecessário do formato do lábio e apresentam o movimento necessário do formato do lábio fluentemente, processamento com ruído suprimido é realizado para os sinais de áudio quando os sinais de áudio são obtidos.

[0044] Etapa 101C, um valor de extensão de movimento máximo do formato do lábio correspondendo à janela atual é obtido de acordo com o grupo máximo windowPeak obtido e o valor de dados de amostra máximo obtido.

[0045] Especificamente, uma média dos valores de dados de amostra de cada grupo em uma janela atual i (i>=0) é obtida; um valor máximo windowPeak[i] entre as médias correspondendo aos grupos na janela atual i é obtido; uma escala de proporção[i] do windowPeak[i] máximo e um valor de dados de amostra máximo maxSampleValue são calculados. Para cada escala de valor[i] de um grupo de escala, uma extensão[i] de valor de extensão de movimento máximo do formato do lábio correspondendo à janela atual i é calculado, isto é, extensão[i]=escala[i] * maxLen, onde maxLen é o valor de extensão de movimento máximo do formato do lábio de todas as janelas.

[0046] Etapa 101D, a proporção de extensão de movimento do formato do lábio em cada quadro de vídeo correspondendo à janela atual é obtida de acordo com o valor de extensão de movimento máximo do formato do lábio correspondendo à janela atual.

Petição 870190118447, de 14/11/2019, pág. 11/37

8/18 [0047] Especificamente, a proporção de extensão de movimento scaleForFrame[k] do formato do lábio no j° quadro de vídeo correspondendo à janela atual i é obtido, isto é, scaleForFrame[k]=j*(escala[i] / (frameNumber/2)), onde k=frameNumber*i+j, 0=<k<o número total de quadros de vídeo, frameNumber representa o número de quadros de vídeo correspondendo a cada janela, frameNumber = x * a taxa de amostragem de vídeo, x representa a duração de pronúncia de cada sílaba. No exemplo da presente invenção, a taxa de amostragem de vídeo de default é 30 quadros por segundo, a qual pode ser modificada por um usuário de acordo com os requisitos; j é aumentado de 0 para frameNumber/2 e, então, é diminuído de frameNumber/2 para 0 e j é um número inteiro.

[0048] Etapa 102, um modelo de formato do lábio original inserido pelo usuário é obtido e um valor de extensão de movimento do formato do lábio é gerado de acordo com o modelo do formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio.

[0049] Especificamente, o valor de extensão de movimento do formato do lábio inclui: valor de extensão de movimento do formato do lábio na direção vertical e valor de extensão de movimento do formato do lábio na direção horizontal; o valor de extensão de movimento na direção horizontal é Length*scaleForFrame[k] e o valor de extensão de movimento na direção vertical é Width*scaleForFrame[k], onde 0=<k< o número total de quadros de vídeo e Length e Width são, respectivamente, o comprimento e a largura do formato do lábio original. [0050] Deverá ser notado que o modelo de formato do lábio original inserido pelo usando pode mudar de acordo com aplicações práticas.

[0051] Etapa 103, um conjunto de modelo de grid de formato do lábio é gerado de acordo com o valor de extensão de movimento obtido do formato do lábio e uma biblioteca de modelo de pronúncia de lábio

Petição 870190118447, de 14/11/2019, pág. 12/37

9/18 pré-configurada.

[0052] Nessa etapa, a biblioteca de modelo de pronúncia de lábio é estabelecida baseado em características da pronúncia do Chinês. Em Chinês, uma palavra consiste de uma consoante inicial e uma vogal e o formato do lábio refere-se principalmente à pronúncia da vogal. Vogais incluem vogais simples, vogais complexas e vogais nasais. A vogal simples consiste de uma vogal e o formato do lábio se mantém inalterado durante a pronúncia; a vogal complexa consiste de duas ou três vogais e a pronúncia e o formato do lábio mudam gradualmente; a pronúncia da vogal nasal não muda tanto o formato do lábio. Portanto, os modelos de pronúncia estabelecidos para o formato do lábio são baseados principalmente nas características de pronúncia das vogais simples. A pronúncia das vogais simples inclui a, wo, e, yi, wu, yu”, os quais representam seis caracteres Chineses com a mesma pronúncia que as vogais simples. O formato do lábio correspondendo a wu e yu é similar e, assim, os dois tipos de formato do lábio são combinados em um tipo de formato do lábio; o formato do lábio correspondendo a e eyi é similar e, assim, os dois tipos de formato do lábio são combinados em um tipo de formato do lábio; finalmente, uma biblioteca de modelo de pronúncia de lábio incluindo quatro tios de modelos de pronúncia é usada para expressar o formato do lábio das vogais simples, conforme mostrado nA figura 3. A biblioteca de modelo de pronúncia de lábio deve incluir: um modelo de formato do lábio e vários modelos de pronúncia de lábio estabelecidos de acordo com o princípio acima e baseado no modelo de lábio original. Deverá ser notado que a biblioteca de modelo de pronúncia de lábio não está limitada a incluir apenas os quatro modelos de pronúncia de lábio das vogais simples acima. Os modelos de pronúncia de lábio na biblioteca de modelo de pronúncia de lábio podem mudar de acordo com as características de pronúncia de diferentes línguas. Por exemplo, de acordo com as características de

Petição 870190118447, de 14/11/2019, pág. 13/37

10/18 pronúncia do Inglês, os modelos de pronúncia de lábio correspondendo às vogais a, e, i, o e u do Inglês são incluídos na biblioteca de modelo de pronúncia de lábio.

[0053] Especificamente, a etapa de geração do conjunto de modelo de grid de formato do lábio de acordo com o valor de extensão de movimento do formato do lábio e a biblioteca de modelo de pronúncia de lábio pré-configurada inclui as seguintes etapas.

[0054] Etapa 103A, um modelo de pronúncia de lábio é aleatoriamente selecionado da biblioteca de modelo de pronúncia de lábio pré-configurada e, assim tomada como um modelo de pronúncia original do formato do lábio original.

[0055] Etapa 103B, vértices do modelo de pronúncia original e do modelo de formato do lábio original na biblioteca de modelo de pronúncia de lábio são obtidos, uma proporção de deslocamento de cada vértice do modelo de pronúncia original é calculada. Especificamente, o deslocamento do vértice z do modelo de pronúncia original e do vértice z do modelo de formato do lábio original na biblioteca de modelo de pronúncia do lábio é x_hor na direção horizontal e é y_ver na direção vertical, então, a proporção de deslocamento do vértice z na direção horizontal é x_hor/modelLength e a proporção de deslocamento do vértice z na direção vertical é y_ver/modelWidth, onde modelLength e modelWidth são, respectivamente, o comprimento e a largura do modelo de lábio original na biblioteca de modelo de pronúncia de lábio, 0=<z< o número dos vértices do modelo de pronúncia original. [0056] Etapa 103C, o deslocamento de vértice do quadro de vídeo atual é obtido multiplicando a proporção de deslocamento de cada vértice do modelo de pronúncia original pelo valor de extensão de movimento do formato do lábio do quadro de vídeo atual que corresponde ao vértice.

[0057] Etapa 103D, um modelo de formato do lábio do quadro de

Petição 870190118447, de 14/11/2019, pág. 14/37

11/18 vídeo atual é obtido realizando superposição do modelo de formato do lábio original inserido pelo usuário, respectivamente, com o deslocamento de vértice do quadro de vídeo atual.

[0058] Etapa 103E, os modelos de formato do lábio de todos os quadros de vídeo são arranjados de acordo com a sequência de áudio e o conjunto de modelo de grid de formato do lábio é gerado.

[0059] Nos exemplos da presente invenção, usando a biblioteca de modelo de pronúncia de lábio, o formato do lábio é alterado baseado na voz; comparado com a técnica anterior, as soluções técnicas proporcionadas pelos exemplos da presente invenção têm um algoritmo simples e de baixo custo.

[0060] O segundo exemplo proporciona um método para obtenção de uma animação de lábio. Conforme mostrado na figura 4, o método inclui as etapas a seguir.

[0061] Etapa 201, sinais de áudio são obtidos e a proporção de extensão de movimento do formato do lábio é obtida de acordo com características dos sinais de áudio.

[0062] Etapa 201 é a mesma conforme a etapa 101 e não será descrita aqui.

[0063] Etapa 202, um modelo de formato do lábio original inserido por um usuário é obtido e um valor de extensão de movimento do formato do lábio é gerada de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento do formato do lábio obtida.

[0064] Etapa 202 é a mesma conforme a etapa 102 e não será descrita aqui.

[0065] Etapa 203, um conjunto de modelo de grid de formato do lábio é gerado de acordo com o valor de extensão de movimento do formato do lábio obtido e uma biblioteca de modelo de pronúncia de lábio pré-configurada.

Petição 870190118447, de 14/11/2019, pág. 15/37

12/18 [0066] Etapa 203 é a mesma conforme a etapa 103 e não será descrita aqui.

[0067] Etapa 204, uma animação de lábio é gerada de acordo com o conjunto de modelo de grid de formato do lábio.

[0068] Especificamente, a animação de lábio pode ser gerada usando uma tecnologia de interpolação comum de acordo com o conjunto de modelo de grid de formato do lábio e o modelo de formato do lábio original.

[0069] Nos exemplos da presente invenção, usando a biblioteca de modelo de pronúncia de lábio, o formato do lábio é alterado baseado na voz; comparado com a técnica anterior, as soluções técnicas proporcionadas pelos exemplos da presente invenção têm um algoritmo simples e de baixo custo.

[0070] O terceiro exemplo da presente invenção proporciona um aparelho para alteração de formato do lábio em uma animação acionada por voz. Conforme mostrado na figura 5, o aparelho inclui:

[0071] um módulo de obtenção 501, configurado para obter sinais de áudio e obter proporção de extensão de movimento do formato do lábio de acordo com características dos sinais de áudio;

[0072] um primeiro módulo de geração 502, configurado para obter um modelo de formato do lábio original inserido por um usuário e gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento do formato do lábio obtida; e [0073] um segundo módulo de geração 503, configurado para gerar um conjunto de modelo de grid de formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio pré-configurada.

[0074] Ainda, conforme mostrado na figura 6, o módulo de obtenção

501 compreende:

Petição 870190118447, de 14/11/2019, pág. 16/37

13/18 [0075] uma primeira unidade de obtenção 5011, configurada para cruzar os sinais de áudio e obter um valor de dados de amostra máximo; [0076] uma segunda unidade de obtenção 5012, configurada para dividir os sinais de áudio em janelas, dividir cada janela em grupos, obter uma média de valores de dados de amostra em cada grupo, obter um grupo médio avgGroup de cada janela, onde um grupo médio avgGroup compreende médias correspondendo a grupos na janela; obter um valor máximo dentre um grupo médio avgGroup de cada janela e obter um grupo máximo windowPeak o qual inclui valores máximos que correspondem à todas as janelas;

[0077] uma terceira unidade de obtenção 5013, configurado para obter um valor máximo de extensão de movimento do formato do lábio que corresponde a uma janela atual i de acordo com o grupo máximo obtido windowPeak e o valor de dados de amostra máximo obtido; e [0078] uma quarta unidade de obtenção 5014, configurada para obter a proporção de extensão de movimento do formato do lábio em um quadro de vídeo atual que corresponde à janela atual i de acordo com o valor máximo de extensão de movimento do formato do lábio que corresponde à janela atual i.

[0079] Ainda, a segunda unidade de obtenção 5012 inclui:

[0080] uma quinta unidade de obtenção, configurada para obter uma média dos valores de dados de amostra de cada grupo na janela atual i;

[0081] uma sexta unidade de obtenção, configurada para obter um valor máximo windowPeak[i] dentre as médias que correspondem aos grupos na janela atual i;

[0082] uma sétima unidade de obtenção, configurada para calcular uma escala[i] de proporção do valor máximo windowPeak[i] e um valor de dados de amostra de áudio máximo maxSampleValue;

[0083] uma oitava unidade de obtenção, configurada para calcular

Petição 870190118447, de 14/11/2019, pág. 17/37

14/18 o valor de extensão de movimento máximo extensão[i] do formato do lábio que corresponde à janela atual i, onde extensão[i]=escala[i] * maxLen;

[0084] onde i>=0, maxLen é o valor máximo de extensão de movimento do formato do lábio de todas as janelas.

[0085] Ainda, a quarta unidade de obtenção 5014 é especificamente configurada para obter a proporção de extensão de movimento scaleForFrame[k] do formato do lábio no j° quadro de vídeo que corresponde à janela atual i, isto é, scaleForFrame[k]=j*(scale[i] / (frameNumber/2)), onde k=frameNumber*i+j, 0=<k< o número total de quadros de vídeo, frameNumber representa o número de quadros de vídeo que corresponde a cada janela, frameNumber = x * taxa de amostragem de vídeo, x representa a duração de pronúncia de cada sílaba; j é aumentado de 0 para frameNumber/2 e, então, diminuído de frameNumber/2 para 0 e j é um número inteiro.

[0086] Ainda, o primeiro módulo de geração 502 que gera o valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento do formato do lábio obtida inclui:

[0087] o primeiro módulo de geração 502 é configurado para calcular o valor de extensão de movimento Length*scaleForFrame[k] na direção horizontal e calcular o valor de extensão de movimento Width*scaleForFrame[k] na direção vertical, onde 0=<k<o número total de quadros de vídeo e Length e Width são, respectivamente, o comprimento e a largura do formato do lábio original.

[0088] Ainda, conforme mostrado na figura 7, o segundo módulo de geração 503 inclui:

[0089] uma unidade de seleção 5031, configurada para selecionar aleatoriamente um modelo de pronúncia de lábio da biblioteca de modelo de pronúncia de lábio pré-configurada e tomar o modelo de

Petição 870190118447, de 14/11/2019, pág. 18/37

15/18 pronúncia de lábio como um modelo de pronúncia original do formato do lábio atual;

[0090] uma nona unidade de obtenção 5032, configurada para obter vértices do modelo de pronúncia original e um modelo de lábio original na biblioteca de modelo de pronúncia de lábio e calcular uma proporção de deslocamento de cada vértice do modelo de pronúncia original;

[0091] uma décima unidade de obtenção 5033, configurada para obter o deslocamento de vértice do quadro de vídeo atual multiplicando a proporção de deslocamento de cada vértice do modelo de pronúncia original pelo valor de extensão de movimento do formato do lábio do quadro de vídeo atual que corresponde ao vértice;

[0092] uma décima primeira unidade de obtenção 5034, configurada para obter o modelo de formato do lábio do quadro de vídeo atual realizando superposição do modelo de formato do lábio original obtido inserido pelo usuário, respectivamente, com o deslocamento de vértice do quadro de vídeo atual;

[0093] uma unidade de geração de conjunto de modelo 5035, configurada para dispor modelos de formato do lábio de todos os quadros de vídeo e gerar o conjunto de modelo de grid de formato do lábio.

[0094] Ainda, a nona unidade de obtenção 5032 que calcula a proporção de deslocamento de cada vértice do modelo de pronúncia original inclui:

[0095] a nona unidade de obtenção 5032 é configurada para calcular uma proporção de deslocamento x_hor/modelLength de um vértice z do modelo de pronúncia original na direção horizontal e calcular uma proporção de deslocamento y_ver/modelWidth do vértice z na direção vertical, onde modelLength e modelWidth são, respectivamente, o comprimento e a largura do modelo de lábio original na biblioteca de modelo de pronúncia de lábio e 0=<z< o número dos vértices do modelo

Petição 870190118447, de 14/11/2019, pág. 19/37

16/18 de pronúncia original.

[0096] Ainda, o módulo de obtenção 501 é ainda configurado para realizar processamento com ruído suprimido para os sinais de áudio.

[0097] Deverá ser notado que o processo detalhado de obtenção dos sinais de áudio e obtenção da proporção de extensão de movimento do formato do lábio de acordo com as características dos sinais de áudio pelo módulo de obtenção 501 pode referir-se à etapa 101 no primeiro exemplo.

[0098] Deverá ser notado que o processo detalhado de obtenção de o modelo de formato do lábio original inserido pelo usuário e geração de o valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento do formato do lábio obtida pelo primeiro módulo de geração 502 pode referir-se à etapa 102 no primeiro exemplo.

[0099] Deverá ser notado que o processo detalhado de geração do conjunto de modelo de grid de formato do lábio de acordo com o valor de extensão de movimento do formato do lábio obtido e a biblioteca de modelo de pronúncia de lábio pré-configurada pelo segundo módulo de geração 503 pode referir-se à etapa 103 no primeiro exemplo.

[00100] Nos exemplos da presente invenção, usando a biblioteca de modelo de pronúncia de lábio, o formato do lábio é alterado baseado na voz; comparado com a técnica anterior, as soluções técnicas proporcionadas pelos exemplos da presente invenção têm um algoritmo simples e de baixo custo.

[00101] Um quarto exemplo da presente invenção proporciona um aparelho para obtenção de uma animação de lábio. Conforme mostrado na figura 8, o aparelho inclui:

[00102] um módulo de obtenção 601, configurado para obter sinais de áudio e obter proporção de extensão de movimento do formato do lábio de acordo com características dos sinais de áudio;

Petição 870190118447, de 14/11/2019, pág. 20/37

17/18 [00103] um primeiro módulo de geração 602, configurado para obter um modelo de formato do lábio original inserido por um usuário e gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento do formato do lábio obtida;

[00104] um segundo módulo de geração 603, configurado para gerar um conjunto de modelo de grid de formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio pré-configurada; e [00105] um terceiro módulo de geração 604, configurado para gerar uma animação de lábio de acordo com o conjunto de modelo de grid de formato do lábio.

[00106] O módulo de obtenção 601, o primeiro módulo de geração 602 e o segundo módulo de geração 603 são, respectivamente, equivalentes ao módulo de obtenção, o primeiro módulo de geração e o segundo módulo de geração no terceiro exemplo e não serão descritos aqui.

[00107] Deverá ser notado que o processo detalhado de obtenção dos sinais de áudio e obtenção da proporção de extensão de movimento do formato do lábio de acordo com características dos sinais de áudio pelo módulo de obtenção 601 pode referir-se à etapa 101 no primeiro exemplo.

[00108] Deverá ser notado que o processo detalhado de obtenção de o modelo de formato do lábio original inserido pelo usuário e geração de o valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento do formato do lábio obtida pelo primeiro módulo de geração 602 pode referir-se à etapa 102 no primeiro exemplo.

[00109] Deverá ser notado que o processo detalhado de geração do conjunto de modelo de grid de formato do lábio de acordo com o valor

Petição 870190118447, de 14/11/2019, pág. 21/37

18/18 de extensão de movimento do formato do lábio obtido e a biblioteca de modelo de pronúncia de lábio pré-configurada pelo segundo módulo de geração 603 pode referir-se à etapa 103 no primeiro exemplo.

[00110] Nos exemplos da presente invenção, usando a biblioteca de modelo de pronúncia de lábio, o formato do lábio é alterado baseado na voz; comparado com a técnica anterior, as soluções técnicas proporcionadas pelos exemplos da presente invenção têm um algoritmo simples e de baixo custo.

[00111] As soluções técnicas dos quatro exemplos acima podem ser aplicadas a, mas não estão limitadas a, animação baseada em terminal de vídeo ou uma animação baseada em vídeo para página da web para entretenimento, podendo ser aplicável não apenas ao Chinês, mas também ao Inglês, Francês ou outras línguas. De forma a ser conveniente para descrição, o Chinês é tomado como um exemplo nos quatro exemplos acima e o processamento de outras línguas é similar e não será descrito aqui. O modelo de formato do lábio original inserido pelo usuário pode ser obtido de acordo com faces humanas, faces de animais e imagens de desenhos, etc; os sinais de áudio também são definidos pelo usuário, por exemplo, sinais de áudio de palavras normais ou músicas ou sinais de áudio especialmente processados.

[00112] Aqueles versados no campo entenderão que toda ou partes das etapas nos exemplos de método acima podem ser implementadas usando um hardware com instruções por um programa, o programa sendo armazenado em um meio legível em computador e o meio de armazenamento inclui um floppy disk, um disco rígido ou um CD.

[00113] O precedente são apenas exemplos preferidos da presente invenção e não são para uso na limitação do escopo de proteção da presente invenção. Qualquer modificação, substituição equivalente e aprimoramento feitos dentro do escopo da presente invenção deverão ser cobertos pelo escopo da proteção da presente invenção.

Claims

REIVINDICAÇÕES

1. Método para alteração do formato do lábio em uma animação acionada por voz, compreendendo:

obter (101) sinais de áudio, e caracterizado pelo fato de que o método ainda compreende:

obter (101) proporção de extensão de movimento do formato do lábio de acordo com características dos sinais de áudio;

obter (102) um modelo de formato do lábio original inserido por um usuário, e gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio; e gerar (103) um conjunto de modelo de grid de formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio préconfigurada;

em que obter proporção de extensão de movimento do formato do lábio de acordo com características dos sinais de áudio compreende:

cruzar os sinais de áudio, e obter um valor de dados de amostra máximo dos sinais de áudio;

dividir os sinais de áudio em janelas, dividir cada janela em grupos, obter uma média de valores de dados de amostra em cada grupo, obter um grupo médio avgGroup de cada janela, em que o grupo médio avgGroup compreende médias que correspondem a grupos na janela; obter um valor máximo dentre o grupo médio avgGroup de cada janela, e obter um grupo máximo windowPeak que compreende valores máximos que correspondem a todas as janelas;

obter um valor de extensão de movimento máximo do formato do lábio que corresponde a uma janela atual i de acordo com o grupo máximo windowPeak obtido e o valor de dados de amostra

Petição 870190118447, de 14/11/2019, pág. 23/37
2/11 máximo obtido; e obter a proporção de extensão de movimento do formato do lábio em um quadro de vídeo atual que corresponde à janela atual i de acordo com o valor de extensão de movimento máximo do formato do lábio que corresponde à janela atual i, em que i>=0.

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que obter um valor de extensão de movimento máximo do formato do lábio que corresponde a uma janela atual i de acordo com o grupo máximo windowPeak obtido e o valor de dados de amostra máximo obtido compreende:

obter uma média de valores de dados de amostra de cada grupo na janela atual i;

obter um valor máximo windowPeak[i] dentre as médias que correspondem aos grupos na janela atual i;

calcular uma escala[i] de proporção do valor máximo windowPeak[i] e um valor de dados de amostra de áudio máximo maxSampleValue;

calcular o valor de extensão de movimento máximo extensão[i] do formato do lábio que corresponde à janela atual i, em que extensão[i]=escala[i] * maxLen;

em que maxLen é o valor de extensão de movimento máximo do formato do lábio de todas as janelas.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que obter a proporção de extensão de movimento do formato do lábio em um quadro de vídeo atual que corresponde à janela atual i de acordo com o valor de extensão de movimento máximo do formato do lábio que corresponde à janela atual i compreende:

obter uma proporção de extensão de movimento

Petição 870190118447, de 14/11/2019, pág. 24/37

3/11 scaleForFrame[k] do formato do lábio no j° quadro de vídeo que corresponde à janela atual i, em que scaleForFrame[k]=j*(scale[i] / (frameNumber/2));

em que k=frameNumber*i+j, 0=<k<o número total de quadros de vídeo, frameNumber representa o número de quadros de vídeo que corresponde a cada janela, frameNumber = x * uma taxa de amostragem de vídeo, x representa duração de pronunciar cada sílaba, j é aumentado de 0 para frameNumber/2 e, então, é diminuído de frameNumber/2 para 0, e j é um número inteiro.
4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que:

gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio compreende:

calcular o valor de extensão de movimento Length*scaleForFrame[k] em uma direção horizontal, e calcular o valor de extensão de movimento Width*scaleForFrame[k] em uma direção vertical, em que Length e Width são, respectivamente, o comprimento e a largura do modelo de formato do lábio original.
5. Método, de acordo com qualquer uma das reivindicações

1 a 4, caracterizado pelo fato de que gerar um conjunto de modelo de grid de formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio pré-configurada compreende:

selecionar aleatoriamente um modelo de pronúncia de lábio a partir da biblioteca de modelo de pronúncia de lábio pré-configurada, e tomar o modelo de pronúncia de lábio como um modelo de pronúncia original de um formato do lábio atual;

obter vértices do modelo de pronúncia original e um modelo de lábio original na biblioteca de modelo de pronúncia de lábio, e

Petição 870190118447, de 14/11/2019, pág. 25/37

4/11 calcular uma proporção de deslocamento de cada vértice do modelo de pronúncia original;

obter deslocamentos de vértice do quadro de vídeo atual ao multiplicar a proporção de deslocamento de cada vértice do modelo de pronúncia original pelo valor de extensão de movimento do formato do lábio do quadro de vídeo atual que corresponde ao vértice;

obter o modelo de formato do lábio do quadro de vídeo atual por superpor o modelo de formato do lábio original obtido inserido pelo usuário respectivamente com os deslocamentos de vértice do quadro de vídeo atual;

dispor modelos de formato do lábio de todos os quadros de vídeo, e gerar o conjunto de modelo de grid de formato do lábio.
6. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que calcular uma proporção de deslocamento de cada vértice do modelo de pronúncia original compreende:

calcular uma proporção de deslocamento x_hor/modelLength de um vértice z do modelo de pronúncia original na direção horizontal, e calcular uma proporção de deslocamento y_ver/modelWidth do vértice z na direção vertical;

em que modelLength e modelWidth são, respectivamente, o comprimento e a largura do modelo de lábio original na biblioteca de modelo de pronúncia de lábio, x_hor e y_ver são, respectivamente, um deslocamento entre o vértice z do modelo de pronúncia original e o vértice z do modelo de lábio original na biblioteca de modelo de pronúncia de lábio na direção horizontal e um deslocamento entre o vértice z do modelo de pronúncia original e o vértice z do modelo de lábio original na biblioteca de modelo de pronúncia de lábio na direção vertical, e 0=<z< o número dos vértices do modelo de pronúncia original.
7. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que ainda compreende: realizar processamento com ruído

Petição 870190118447, de 14/11/2019, pág. 26/37

5/11 suprimido para os sinais de áudio.
8. Método para obtenção de uma animação de lábio, compreendendo:

obter (201) sinais de áudio, e caracterizado pelo fato de que o método ainda compreende:

obter (201) proporção de extensão de movimento do formato do lábio de acordo com características dos sinais de áudio;

obter (202) um modelo de formato do lábio original inserido por um usuário, e gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio;

gerar (203) um conjunto de modelo de grid de formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio préconfigurada; e gerar (204) uma animação de lábio de acordo com o conjunto de modelo de grid do formato do lábio;

em que obter proporção de extensão de movimento do formato do lábio de acordo com características dos sinais de áudio compreende:

cruzar os sinais de áudio, e obter um valor de dados de amostra máximo dos sinais de áudio;

dividir os sinais de áudio em janelas, dividir cada janela em grupos, obter uma média de valores de dados de amostra em cada grupo, obter um grupo médio avgGroup de cada janela, em que o grupo médio avgGroup compreende médias que correspondem a grupos na janela; obter um valor máximo dentre o grupo médio avgGroup de cada janela, e obter um grupo máximo windowPeak que compreende valores máximos que correspondem a todas as janelas;

obter um valor de extensão de movimento máximo do

Petição 870190118447, de 14/11/2019, pág. 27/37

6/11 formato do lábio que corresponde a uma janela atual i de acordo com o grupo máximo windowPeak obtido e o valor de dados de amostra máximo obtido; e obter a proporção de extensão de movimento do formato do lábio em um quadro de vídeo atual que corresponde à janela atual i de acordo com o valor de extensão de movimento máximo do formato do lábio que corresponde à janela atual i, em que i>=0.
9. Aparelho para alteração de formato do lábio em uma animação acionada por voz, caracterizado pelo fato de que compreende:

um módulo de obtenção (501), configurado para obter sinais de áudio, e obter proporção de extensão de movimento de formato do lábio de acordo com características dos sinais de áudio;

um primeiro módulo de geração (502), configurado para obter um modelo de formato do lábio original inserido por um usuário, e gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio; e um segundo módulo de geração (503), configurado para gerar um conjunto de modelo de grid de formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio pré-configurada;

em que o módulo de obtenção (501) compreende:

uma primeira unidade de obtenção (5011), configurada para cruzar os sinais de áudio, e obter um valor de dados de amostra máximo dos sinais de áudio;

uma segunda unidade de obtenção (5012), configurada para dividir os sinais de áudio em janelas, dividir cada janela em grupos, obter uma média de valores de dados de amostra em cada grupo, obter um grupo médio avgGroup de cada janela, em que um grupo médio

Petição 870190118447, de 14/11/2019, pág. 28/37

7/11 avgGroup compreende médias que correspondem a grupos na janela; obter um valor máximo dentre um grupo médio avgGroup de cada janela, e obter um grupo máximo windowPeak que compreende valores máximos que correspondem a todas as janelas;

uma terceira unidade de obtenção (5013), configurada para obter um valor de extensão de movimento máximo do formato do lábio que corresponde a uma janela atual i de acordo com o grupo máximo windowPeak obtido e o valor de dados de amostra máximo obtido; e uma quarta unidade de obtenção (5014), configurada para obter a proporção de extensão de movimento do formato do lábio em um quadro de vídeo atual que corresponde à janela atual i de acordo com o valor de extensão de movimento máximo do formato do lábio que corresponde à janela atual i, em que i>=0.
10. Aparelho, de acordo com a reivindicação 9, caracterizado pelo fato de que a segunda unidade de obtenção (5012) compreende:

uma quinta unidade de obtenção, configurada para obter uma média de valores de dados de amostra de cada grupo na janela atual i;

uma sexta unidade de obtenção, configurada para obter um valor máximo windowPeak[i] dentre as médias que correspondem aos grupos na janela atual i;

uma sétima unidade de obtenção, configurada para calcular uma escala[i] de proporção do valor máximo windowPeak[i] e um valor de dados de amostra de áudio máximo maxSampleValue;

uma oitava unidade de obtenção, configurada para calcular o valor de extensão de movimento máximo extensão[i] do formato do lábio que corresponde à janela atual i, em que extensão[i]=escala[i] * maxLen;

em que maxLen é o valor de extensão de movimento máximo

Petição 870190118447, de 14/11/2019, pág. 29/37

8/11 do formato do lábio de todas as janelas.
11. Aparelho, de acordo com a reivindicação 9, caracterizado pelo fato de que a quarta unidade de obtenção (5014) é configurada para obter uma proporção de extensão de movimento scaleForFrame[k] do formato do lábio no j° quadro de vídeo que corresponde à janela atual i, em que scaleForFrame[k]=j*(scale[i] / (frameNumber/2)); em que k=frameNumber*i+j, 0=<k<o número total de quadros de vídeo, frameNumber representa o número de quadros de vídeo que corresponde a cada janela, frameNumber = x * taxa de amostragem de vídeo, x representa duração de pronunciar cada sílaba, j é aumentado de 0 para frameNumber/2 e, então, é diminuído de frameNumber/2 para 0, e j é um número inteiro.
12. Aparelho, de acordo com a reivindicação 11, caracterizado pelo fato de que o primeiro módulo de geração (502) é configurado para calcular o valor de extensão de movimento Length*scaleForFrame[k] em uma direção horizontal, calcular o valor de extensão de movimento Width*scaleForFrame[k] em uma direção vertical, em que o Length e a Width são, respectivamente, o comprimento e a largura do modelo de formato do lábio original.
13. Aparelho, de acordo com qualquer uma das reivindicações 9 a 12, caracterizado pelo fato de que o segundo módulo de geração (503) compreende:

uma unidade de seleção (5031), configurada para selecionar aleatoriamente um modelo de pronúncia de lábio a partir da biblioteca de modelo de pronúncia de lábio pré-configurada, e tomar o modelo de pronúncia de lábio como um modelo de pronúncia original do formato do lábio atual;

uma nona unidade de obtenção (5032), configurada para obter vértices do modelo de pronúncia original e um modelo de lábio original na biblioteca de modelo de pronúncia de lábio, e calcular uma

Petição 870190118447, de 14/11/2019, pág. 30/37

9/11 proporção de deslocamento de cada vértice do modelo de pronúncia original;

uma décima unidade de obtenção (5033), configurada para obter deslocamento de vértice do quadro de vídeo atual ao multiplicar a proporção de deslocamento de cada vértice do modelo de pronúncia original pelo valor de extensão de movimento de formato do lábio do quadro de vídeo atual que corresponde ao vértice;

uma décima primeira unidade de obtenção (5034), configurada para obter o modelo de formato do lábio do quadro de vídeo atual ao superpor o modelo de formato do lábio original obtido inserido pelo usuário respectivamente com os deslocamentos de vértice do quadro de vídeo atual;

uma unidade de gerar conjunto de modelo (5035), configurada para dispor modelos de formato do lábio de todos os quadros de vídeo, e gerar o conjunto de modelo de grid de formato do lábio.
14. Aparelho, de acordo com a reivindicação 13, caracterizado pelo fato de que a nona unidade de obtenção (5032) é configurada para calcular uma proporção de deslocamento x_hor/modelLength de um vértice z do modelo de pronúncia original na direção horizontal, e calcular uma proporção de deslocamento y_ver/modelWidth do vértice z na direção vertical, em que modelLength e modelWidth são, respectivamente, o comprimento e a largura do modelo de lábio original na biblioteca de modelo de pronúncia de lábio, x_hor e y_ver são, respectivamente, um deslocamento entre o vértice z do modelo de pronúncia original e o vértice z do modelo de lábio original na biblioteca de modelo de pronúncia de lábio na direção horizontal e um deslocamento entre o vértice z do modelo de pronúncia original e o vértice z do modelo de lábio original na biblioteca de modelo de pronúncia de lábio na direção vertical, e 0=<z< o número dos vértices

Petição 870190118447, de 14/11/2019, pág. 31/37

10/11 do modelo de pronúncia original.
15. Aparelho, de acordo com a reivindicação 14, caracterizado pelo fato de que o módulo de obtenção (501) é ainda configurado para realizar processamento com ruído suprimido para os sinais de áudio.
16. Aparelho para obtenção de uma animação de lábio, caracterizado pelo fato de que compreende:

um módulo de obtenção (601), configurado para obter sinais de áudio, e obter proporção de extensão de movimento de formato do lábio de acordo com características dos sinais de áudio;

um primeiro módulo de geração (602), configurado para obter um modelo de formato do lábio original inserido por um usuário, e gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio;

a segundo módulo de geração (603), configurado para gerar um conjunto de modelo de grid de formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio pré-configurada; e um terceiro módulo de geração (604), configurado para gerar uma animação de lábio de acordo com o conjunto de modelo de grid de formato do lábio;

em que o módulo de obtenção (601) compreende:

uma primeira unidade de obtenção (5011), configurada para cruzar os sinais de áudio, e obter um valor de dados de amostra máximo dos sinais de áudio;

uma segunda unidade de obtenção (5012), configurada para dividir os sinais de áudio em janelas, dividir cada janela em grupos, obter uma média de valores de dados de amostra em cada grupo, obter um grupo médio avgGroup de cada janela, em que um grupo médio

Petição 870190118447, de 14/11/2019, pág. 32/37

11/11 avgGroup compreende médias que correspondem a grupos na janela; obter um valor máximo dentre um grupo médio avgGroup de cada janela, e obter um grupo máximo windowPeak que compreende valores máximos que correspondem a todas as janelas;

uma terceira unidade de obtenção (5013), configurada para obter um valor de extensão de movimento máximo do formato do lábio que corresponde a uma janela atual i de acordo com o grupo máximo windowPeak obtido e o valor de dados de amostra máximo obtido; e uma quarta unidade de obtenção (5014), configurada para obter a proporção de extensão de movimento do formato do lábio em um quadro de vídeo atual que corresponde à janela atual i de acordo com o valor de extensão de movimento máximo do formato do lábio que corresponde à janela atual i, em que i>=0.