[go: up one dir, main page]

BRPI1006026B1 - método e aparelho para alteração do formato de lábio e obtenção de animação de lábio em animação acionada por voz - Google Patents

método e aparelho para alteração do formato de lábio e obtenção de animação de lábio em animação acionada por voz Download PDF

Info

Publication number
BRPI1006026B1
BRPI1006026B1 BRPI1006026A BRPI1006026A BRPI1006026B1 BR PI1006026 B1 BRPI1006026 B1 BR PI1006026B1 BR PI1006026 A BRPI1006026 A BR PI1006026A BR PI1006026 A BRPI1006026 A BR PI1006026A BR PI1006026 B1 BRPI1006026 B1 BR PI1006026B1
Authority
BR
Brazil
Prior art keywords
lip
lip shape
model
maximum
original
Prior art date
Application number
BRPI1006026A
Other languages
English (en)
Inventor
Wang Jianyu
Lu Yisha
Original Assignee
Tencent Tech Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40880071&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=BRPI1006026(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Tencent Tech Shenzhen Co Ltd filed Critical Tencent Tech Shenzhen Co Ltd
Publication of BRPI1006026A2 publication Critical patent/BRPI1006026A2/pt
Publication of BRPI1006026A8 publication Critical patent/BRPI1006026A8/pt
Publication of BRPI1006026B1 publication Critical patent/BRPI1006026B1/pt

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)

Abstract

método e aparelho para alteração do formato de lábio e obtenção de animação de lábio em animação acionada por voz. a presente invenção refere-se a um método e a um aparelho para alteração do formato do lábio e obter uma animação de lábio em uma animação acionada por voz e refere-se a tecnologias de computador. o método para alteração do formato de lábio inclui: obter sinais de áudio e obter proporção de extensão de movimento do formato do lábio de acordo com as características dos sinais de áudio; obter um modelo de formato do lábio original inserido por um usuário e gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio; gerar um conjunto de modelo de grid do formato do lábio de acordo com o valor de extensão de movimento do formato do lábio obtido e uma biblioteca de modelo de pronúncia de lábio pré-configurada. o método para alteração do formato do lábio em uma animação acionada por voz inclui um módulo de obtenção, um primeiro módulo de geração e um segundo módulo de geração. as soluções fornecidas pela presente invenção têm um algoritmo simples e de baixo custo.

Description

Relatório Descritivo da Patente de Invenção para MÉTODO E APARELHO PARA ALTERAÇÃO DO FORMATO DE LÁBIO E OBTENÇÃO DE ANIMAÇÃO DE LÁBIO EM ANIMAÇÃO ACIONADA POR VOZ.
Campo da Invenção [001] A presente invenção refere-se a tecnologias de animação baseadas em vídeo e, mais particularmente, a um método e aparelho para alteração do formato de lábio e obtenção de uma animação de lábio em uma animação acionada por voz.
Antecedentes da Invenção [002] Resposta de Voz Interativa (Interactive Voice Response IVR) é um produto baseado em transmissão de voz. A maioria dos usuários da Internet apreciam autoapresentação e assistir personalidades. Dessa forma, é necessário aprimorar a IVR em ambas as tecnologias e filosofia, por exemplo, fazer a voz ter melhor expressão, o que pode ser implementado por tecnologias de animação baseadas em vídeo. As tecnologias de animação baseadas em vídeo tomam um telefone móvel ou uma página da web como uma plataforma, na qual a voz é configurada com uma animação baseada em vídeo autodefinida, de modo a conferir à voz uma expressão vívida.
[003] Nas tecnologias de animação baseadas em vídeo, uma tecnologia para alteração do formato do lábio em uma animação acionada por voz é uma parte importante. Na técnica anterior, é proporcionada uma solução, na qual sinais de áudio são mapeados ao formato do lábio de parâmetros de animação facial usando um modo de Aprendizado da Máquina. Mas o algoritmo dessa solução é complexo e o custo de cálculo é alto.
Sumário da Invenção [004] Exemplos da presente invenção proporcionam um método e aparelho para alteração do formato do lábio e obtenção de uma
Petição 870190118447, de 14/11/2019, pág. 5/37
2/18 animação de lábio em uma animação acionada por voz, de modo a simplificar o algoritmo de alteração do formato do lábio em uma animação acionada por voz e reduzir o custo de cálculo.
[005] As soluções técnicas são implementadas como segue.
[006] Exemplos da presente invenção proporcionam um método para alteração do formato do lábio em uma animação acionada por voz incluindo:
[007] obtenção de sinais de áudio e obtenção de proporção de extensão de movimento do formato do lábio de acordo com as características dos sinais de áudio;
[008] obtenção de um modelo do formato do lábio original inserido por um usuário e geração de um valor de extensão de movimento do formato do lábio de acordo com o modelo do formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio; e [009] geração de um modelo de grade do formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de conjunto de modelo de pronúncia do lábio préconfigurada.
[0010] Exemplos da presente invenção também proporcionam um aparelho para alteração do formato do lábio em uma animação acionada por voz, incluindo:
[0011] um módulo de obtenção configurado para obter sinais de áudio e obter proporção de extensão de movimento do formato do lábio de acordo com as características dos sinais de áudio;
[0012] um primeiro módulo de geração configurado para obter um modelo do formato do lábio original inserido por um usuário e gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo do formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio; e [0013] um segundo módulo de geração configurado para gerar um
Petição 870190118447, de 14/11/2019, pág. 6/37
3/18 conjunto de modelo de grid de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio pré-configurada.
[0014] Nos exemplos da presente invenção, ao usar a biblioteca de modelo de pronúncia de lábio, o formato do lábio é alterado baseado na voz; comparado com a técnica anterior, as soluções técnicas proporcionadas pelos exemplos da presente invenção têm um algoritmo simples e de baixo custo.
[0015] Exemplos da presente invenção também proporcionam um método para obtenção de uma animação de lábio em uma animação acionada por voz, incluindo:
[0016] obtenção de sinais de áudio e obtenção de proporção de extensão de movimento do formato do lábio de acordo com as características dos sinais de áudio;
[0017] obtenção de um modelo de formato do lábio original inserido por um usuário e geração de um valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio;
[0018] geração de um conjunto de modelo de grid do formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio préconfigurada; e [0019] geração de uma animação de lábio de acordo com a configuração do modelo de grid do formato do lábio.
[0020] Exemplos da presente invenção também proporcionam um aparelho para obtenção de uma animação de lábio em uma animação acionada por voz, incluindo:
[0021] um módulo de obtenção configurado para obter sinais de áudio e obter proporção de extensão de movimento do formato do lábio de acordo com as características dos sinais de áudio;
Petição 870190118447, de 14/11/2019, pág. 7/37
4/18 [0022] um primeiro módulo de geração configurado para obter um modelo de formato do lábio original inserido por um usuário e gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo do formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio;
[0023] um segundo módulo de geração configurado para gerar um conjunto de modelo de grid do formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio pré-configurada; e [0024] um terceiro módulo de geração configurado para gerar uma animação de lábio de acordo com o modelo de grid de formato do lábio configurado.
[0025] Nos exemplos da presente invenção, usando a biblioteca de modelo de pronúncia de lábio, o formato do lábio é alterado baseado na voz; comparado com a técnica anterior, soluções fornecidas pelos exemplos da presente invenção têm um algoritmo simples e de baixo custo.
Breve Descrição dos Desenhos [0026] De forma a tornar as soluções técnicas nos exemplos da presente invenção ou as soluções técnicas na técnica anterior mais claras, os desenhos usados nos exemplos ou usados na técnica anterior serão descritos de maneira simples. Obviamente, os desenhos descritos abaixo são apenas alguns exemplos da presente invenção e aqueles versados no campo podem entender que outros desenhos podem ser obtidos de acordo com esses desenhos sem trabalho criativo.
[0027] A figura 1 é um fluxograma ilustrando um método para alteração do formato do lábio em uma animação acionada por voz de acordo com um primeiro exemplo da presente invenção.
[0028] A figura 2 é um fluxograma ilustrando o número de quadros
Petição 870190118447, de 14/11/2019, pág. 8/37
5/18 de vídeo e a proporção de extensão de movimento do formato do lábio de acordo com o primeiro exemplo da presente invenção.
[0029] A figura 3 é um diagrama esquemático ilustrando uma biblioteca de modelo de pronúncia de lábio de acordo com o primeiro exemplo da presente invenção.
[0030] A figura 4 é um fluxograma ilustrando um método para obtenção de uma animação de lábio em uma animação acionada por voz de acordo com um segundo exemplo da presente invenção.
[0031] A figura 5 é um diagrama esquemático ilustrando um aparelho para alteração do formato do lábio em uma animação acionada por voz de acordo com o terceiro exemplo da presente invenção.
[0032] A figura 6 é um diagrama esquemático ilustrando outro aparelho para alteração do formato do lábio em uma animação acionada por voz de acordo com o terceiro exemplo da presente invenção.
[0033] A figura 7 é um diagrama esquemático ilustrando outro aparelho para alteração do formato de lábio em uma animação acionada por voz de acordo com o terceiro exemplo da presente invenção.
[0034] A figura 8 é um diagrama esquemático ilustrando um aparelho para obtenção de uma animação de lábio de acordo com um quarto exemplo da presente invenção.
Descrição Detalhada da Invenção [0035] De forma a tornar as finalidades, soluções e méritos da invenção mais claros, a presente invenção será ilustrada em detalhes aqui depois com referência aos desenhos em anexo. Obviamente, os exemplos descritos abaixo são apenas exemplos parciais da presente invenção, ao invés de todos os exemplos. Baseado nos exemplos da presente invenção, outros exemplos obtidos por aqueles versados no campo sem trabalho criativo pertencem ao escopo de proteção da presente invenção.
[0036] O primeiro exemplo da presente invenção proporciona um
Petição 870190118447, de 14/11/2019, pág. 9/37
6/18 método para alteração do formato do lábio baseado na voz. Conforme mostrado na figura 1, o método inclui as etapas a seguir.
[0037] Etapa 101, sinais de áudio são obtidos e a proporção de extensão de movimento do formato do lábio é obtida de acordo com características dos sinais de áudio.
[0038] Especificamente, a etapa de obtenção de proporção de extensão de movimento do formato do lábio de acordo com as características dos sinais de áudio inclui as etapas a seguir.
[0039] Etapa 101A, os sinais de áudio são cruzados e um valor de dados de amostra máximo, Valor maxSample, dos sinais de áudio é obtido.
[0040] Etapa 101B, os sinais de áudio são divididos em janelas, cada janela é dividida em grupos, uma média dos valores de dados de amostra em cada grupo é obtida, um grupo médio, avgGroup, de cada janela é obtido, onde o grupo médio avgGroup inclui médias correspondendo a grupos na janela; um valor máximo entre o grupo médio avgGroup de cada janela é obtido e um grupo máximo, windowPeak, o qual compreende valores máximos que corresponde à todas as janelas é obtido.
[0041] Uma sílaba é uma unidade básica de voz. Especificamente, na China, cada sílaba corresponde a um tipo de formato do lábio e leva 200 a 300 milissegundos para pronunciar uma sílaba em um procedimento de pronúncia uniforme. Pode haver uma alteração de voz no decorrer de pronúncia de cada sílaba, de modo que é necessário dividir a sílaba em fonemas. De acordo com o princípio acima, os sinais de áudio obtidos são divididos em janelas com um determinado comprimento e cada janela corresponde a uma sílaba; cada janela é ainda dividida em grupos com um determinado comprimento e cada grupo corresponde a um fonema. Supondo que leva x segundos para pronunciar a sílaba e o comprimento da janela é WindowLen,
Petição 870190118447, de 14/11/2019, pág. 10/37
7/18
WindowLen = x * taxa de amostragem de áudio; supondo que leva x segundos para pronunciar o fonema e o comprimento do grupo é GroupLen, GroupLen = y * taxa de amostragem de áudio.
[0042] Especificamente, a média dos valores de dados de amostra em cada grupo é igual à soma de todos os valores de dados de amostra no grupo dividido por GroupLen e a média é colocada no grupo médio, avgGroup; um valor máximo do grupo médio avgGroup é obtido e é colocado em um grupo máximo windowPeak.
[0043] Opcionalmente, de forma a evitar movimento desnecessário do formato do lábio e apresentam o movimento necessário do formato do lábio fluentemente, processamento com ruído suprimido é realizado para os sinais de áudio quando os sinais de áudio são obtidos.
[0044] Etapa 101C, um valor de extensão de movimento máximo do formato do lábio correspondendo à janela atual é obtido de acordo com o grupo máximo windowPeak obtido e o valor de dados de amostra máximo obtido.
[0045] Especificamente, uma média dos valores de dados de amostra de cada grupo em uma janela atual i (i>=0) é obtida; um valor máximo windowPeak[i] entre as médias correspondendo aos grupos na janela atual i é obtido; uma escala de proporção[i] do windowPeak[i] máximo e um valor de dados de amostra máximo maxSampleValue são calculados. Para cada escala de valor[i] de um grupo de escala, uma extensão[i] de valor de extensão de movimento máximo do formato do lábio correspondendo à janela atual i é calculado, isto é, extensão[i]=escala[i] * maxLen, onde maxLen é o valor de extensão de movimento máximo do formato do lábio de todas as janelas.
[0046] Etapa 101D, a proporção de extensão de movimento do formato do lábio em cada quadro de vídeo correspondendo à janela atual é obtida de acordo com o valor de extensão de movimento máximo do formato do lábio correspondendo à janela atual.
Petição 870190118447, de 14/11/2019, pág. 11/37
8/18 [0047] Especificamente, a proporção de extensão de movimento scaleForFrame[k] do formato do lábio no j° quadro de vídeo correspondendo à janela atual i é obtido, isto é, scaleForFrame[k]=j*(escala[i] / (frameNumber/2)), onde k=frameNumber*i+j, 0=<k<o número total de quadros de vídeo, frameNumber representa o número de quadros de vídeo correspondendo a cada janela, frameNumber = x * a taxa de amostragem de vídeo, x representa a duração de pronúncia de cada sílaba. No exemplo da presente invenção, a taxa de amostragem de vídeo de default é 30 quadros por segundo, a qual pode ser modificada por um usuário de acordo com os requisitos; j é aumentado de 0 para frameNumber/2 e, então, é diminuído de frameNumber/2 para 0 e j é um número inteiro.
[0048] Etapa 102, um modelo de formato do lábio original inserido pelo usuário é obtido e um valor de extensão de movimento do formato do lábio é gerado de acordo com o modelo do formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio.
[0049] Especificamente, o valor de extensão de movimento do formato do lábio inclui: valor de extensão de movimento do formato do lábio na direção vertical e valor de extensão de movimento do formato do lábio na direção horizontal; o valor de extensão de movimento na direção horizontal é Length*scaleForFrame[k] e o valor de extensão de movimento na direção vertical é Width*scaleForFrame[k], onde 0=<k< o número total de quadros de vídeo e Length e Width são, respectivamente, o comprimento e a largura do formato do lábio original. [0050] Deverá ser notado que o modelo de formato do lábio original inserido pelo usando pode mudar de acordo com aplicações práticas.
[0051] Etapa 103, um conjunto de modelo de grid de formato do lábio é gerado de acordo com o valor de extensão de movimento obtido do formato do lábio e uma biblioteca de modelo de pronúncia de lábio
Petição 870190118447, de 14/11/2019, pág. 12/37
9/18 pré-configurada.
[0052] Nessa etapa, a biblioteca de modelo de pronúncia de lábio é estabelecida baseado em características da pronúncia do Chinês. Em Chinês, uma palavra consiste de uma consoante inicial e uma vogal e o formato do lábio refere-se principalmente à pronúncia da vogal. Vogais incluem vogais simples, vogais complexas e vogais nasais. A vogal simples consiste de uma vogal e o formato do lábio se mantém inalterado durante a pronúncia; a vogal complexa consiste de duas ou três vogais e a pronúncia e o formato do lábio mudam gradualmente; a pronúncia da vogal nasal não muda tanto o formato do lábio. Portanto, os modelos de pronúncia estabelecidos para o formato do lábio são baseados principalmente nas características de pronúncia das vogais simples. A pronúncia das vogais simples inclui a, wo, e, yi, wu, yu”, os quais representam seis caracteres Chineses com a mesma pronúncia que as vogais simples. O formato do lábio correspondendo a wu e yu é similar e, assim, os dois tipos de formato do lábio são combinados em um tipo de formato do lábio; o formato do lábio correspondendo a e eyi é similar e, assim, os dois tipos de formato do lábio são combinados em um tipo de formato do lábio; finalmente, uma biblioteca de modelo de pronúncia de lábio incluindo quatro tios de modelos de pronúncia é usada para expressar o formato do lábio das vogais simples, conforme mostrado nA figura 3. A biblioteca de modelo de pronúncia de lábio deve incluir: um modelo de formato do lábio e vários modelos de pronúncia de lábio estabelecidos de acordo com o princípio acima e baseado no modelo de lábio original. Deverá ser notado que a biblioteca de modelo de pronúncia de lábio não está limitada a incluir apenas os quatro modelos de pronúncia de lábio das vogais simples acima. Os modelos de pronúncia de lábio na biblioteca de modelo de pronúncia de lábio podem mudar de acordo com as características de pronúncia de diferentes línguas. Por exemplo, de acordo com as características de
Petição 870190118447, de 14/11/2019, pág. 13/37
10/18 pronúncia do Inglês, os modelos de pronúncia de lábio correspondendo às vogais a, e, i, o e u do Inglês são incluídos na biblioteca de modelo de pronúncia de lábio.
[0053] Especificamente, a etapa de geração do conjunto de modelo de grid de formato do lábio de acordo com o valor de extensão de movimento do formato do lábio e a biblioteca de modelo de pronúncia de lábio pré-configurada inclui as seguintes etapas.
[0054] Etapa 103A, um modelo de pronúncia de lábio é aleatoriamente selecionado da biblioteca de modelo de pronúncia de lábio pré-configurada e, assim tomada como um modelo de pronúncia original do formato do lábio original.
[0055] Etapa 103B, vértices do modelo de pronúncia original e do modelo de formato do lábio original na biblioteca de modelo de pronúncia de lábio são obtidos, uma proporção de deslocamento de cada vértice do modelo de pronúncia original é calculada. Especificamente, o deslocamento do vértice z do modelo de pronúncia original e do vértice z do modelo de formato do lábio original na biblioteca de modelo de pronúncia do lábio é x_hor na direção horizontal e é y_ver na direção vertical, então, a proporção de deslocamento do vértice z na direção horizontal é x_hor/modelLength e a proporção de deslocamento do vértice z na direção vertical é y_ver/modelWidth, onde modelLength e modelWidth são, respectivamente, o comprimento e a largura do modelo de lábio original na biblioteca de modelo de pronúncia de lábio, 0=<z< o número dos vértices do modelo de pronúncia original. [0056] Etapa 103C, o deslocamento de vértice do quadro de vídeo atual é obtido multiplicando a proporção de deslocamento de cada vértice do modelo de pronúncia original pelo valor de extensão de movimento do formato do lábio do quadro de vídeo atual que corresponde ao vértice.
[0057] Etapa 103D, um modelo de formato do lábio do quadro de
Petição 870190118447, de 14/11/2019, pág. 14/37
11/18 vídeo atual é obtido realizando superposição do modelo de formato do lábio original inserido pelo usuário, respectivamente, com o deslocamento de vértice do quadro de vídeo atual.
[0058] Etapa 103E, os modelos de formato do lábio de todos os quadros de vídeo são arranjados de acordo com a sequência de áudio e o conjunto de modelo de grid de formato do lábio é gerado.
[0059] Nos exemplos da presente invenção, usando a biblioteca de modelo de pronúncia de lábio, o formato do lábio é alterado baseado na voz; comparado com a técnica anterior, as soluções técnicas proporcionadas pelos exemplos da presente invenção têm um algoritmo simples e de baixo custo.
[0060] O segundo exemplo proporciona um método para obtenção de uma animação de lábio. Conforme mostrado na figura 4, o método inclui as etapas a seguir.
[0061] Etapa 201, sinais de áudio são obtidos e a proporção de extensão de movimento do formato do lábio é obtida de acordo com características dos sinais de áudio.
[0062] Etapa 201 é a mesma conforme a etapa 101 e não será descrita aqui.
[0063] Etapa 202, um modelo de formato do lábio original inserido por um usuário é obtido e um valor de extensão de movimento do formato do lábio é gerada de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento do formato do lábio obtida.
[0064] Etapa 202 é a mesma conforme a etapa 102 e não será descrita aqui.
[0065] Etapa 203, um conjunto de modelo de grid de formato do lábio é gerado de acordo com o valor de extensão de movimento do formato do lábio obtido e uma biblioteca de modelo de pronúncia de lábio pré-configurada.
Petição 870190118447, de 14/11/2019, pág. 15/37
12/18 [0066] Etapa 203 é a mesma conforme a etapa 103 e não será descrita aqui.
[0067] Etapa 204, uma animação de lábio é gerada de acordo com o conjunto de modelo de grid de formato do lábio.
[0068] Especificamente, a animação de lábio pode ser gerada usando uma tecnologia de interpolação comum de acordo com o conjunto de modelo de grid de formato do lábio e o modelo de formato do lábio original.
[0069] Nos exemplos da presente invenção, usando a biblioteca de modelo de pronúncia de lábio, o formato do lábio é alterado baseado na voz; comparado com a técnica anterior, as soluções técnicas proporcionadas pelos exemplos da presente invenção têm um algoritmo simples e de baixo custo.
[0070] O terceiro exemplo da presente invenção proporciona um aparelho para alteração de formato do lábio em uma animação acionada por voz. Conforme mostrado na figura 5, o aparelho inclui:
[0071] um módulo de obtenção 501, configurado para obter sinais de áudio e obter proporção de extensão de movimento do formato do lábio de acordo com características dos sinais de áudio;
[0072] um primeiro módulo de geração 502, configurado para obter um modelo de formato do lábio original inserido por um usuário e gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento do formato do lábio obtida; e [0073] um segundo módulo de geração 503, configurado para gerar um conjunto de modelo de grid de formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio pré-configurada.
[0074] Ainda, conforme mostrado na figura 6, o módulo de obtenção
501 compreende:
Petição 870190118447, de 14/11/2019, pág. 16/37
13/18 [0075] uma primeira unidade de obtenção 5011, configurada para cruzar os sinais de áudio e obter um valor de dados de amostra máximo; [0076] uma segunda unidade de obtenção 5012, configurada para dividir os sinais de áudio em janelas, dividir cada janela em grupos, obter uma média de valores de dados de amostra em cada grupo, obter um grupo médio avgGroup de cada janela, onde um grupo médio avgGroup compreende médias correspondendo a grupos na janela; obter um valor máximo dentre um grupo médio avgGroup de cada janela e obter um grupo máximo windowPeak o qual inclui valores máximos que correspondem à todas as janelas;
[0077] uma terceira unidade de obtenção 5013, configurado para obter um valor máximo de extensão de movimento do formato do lábio que corresponde a uma janela atual i de acordo com o grupo máximo obtido windowPeak e o valor de dados de amostra máximo obtido; e [0078] uma quarta unidade de obtenção 5014, configurada para obter a proporção de extensão de movimento do formato do lábio em um quadro de vídeo atual que corresponde à janela atual i de acordo com o valor máximo de extensão de movimento do formato do lábio que corresponde à janela atual i.
[0079] Ainda, a segunda unidade de obtenção 5012 inclui:
[0080] uma quinta unidade de obtenção, configurada para obter uma média dos valores de dados de amostra de cada grupo na janela atual i;
[0081] uma sexta unidade de obtenção, configurada para obter um valor máximo windowPeak[i] dentre as médias que correspondem aos grupos na janela atual i;
[0082] uma sétima unidade de obtenção, configurada para calcular uma escala[i] de proporção do valor máximo windowPeak[i] e um valor de dados de amostra de áudio máximo maxSampleValue;
[0083] uma oitava unidade de obtenção, configurada para calcular
Petição 870190118447, de 14/11/2019, pág. 17/37
14/18 o valor de extensão de movimento máximo extensão[i] do formato do lábio que corresponde à janela atual i, onde extensão[i]=escala[i] * maxLen;
[0084] onde i>=0, maxLen é o valor máximo de extensão de movimento do formato do lábio de todas as janelas.
[0085] Ainda, a quarta unidade de obtenção 5014 é especificamente configurada para obter a proporção de extensão de movimento scaleForFrame[k] do formato do lábio no j° quadro de vídeo que corresponde à janela atual i, isto é, scaleForFrame[k]=j*(scale[i] / (frameNumber/2)), onde k=frameNumber*i+j, 0=<k< o número total de quadros de vídeo, frameNumber representa o número de quadros de vídeo que corresponde a cada janela, frameNumber = x * taxa de amostragem de vídeo, x representa a duração de pronúncia de cada sílaba; j é aumentado de 0 para frameNumber/2 e, então, diminuído de frameNumber/2 para 0 e j é um número inteiro.
[0086] Ainda, o primeiro módulo de geração 502 que gera o valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento do formato do lábio obtida inclui:
[0087] o primeiro módulo de geração 502 é configurado para calcular o valor de extensão de movimento Length*scaleForFrame[k] na direção horizontal e calcular o valor de extensão de movimento Width*scaleForFrame[k] na direção vertical, onde 0=<k<o número total de quadros de vídeo e Length e Width são, respectivamente, o comprimento e a largura do formato do lábio original.
[0088] Ainda, conforme mostrado na figura 7, o segundo módulo de geração 503 inclui:
[0089] uma unidade de seleção 5031, configurada para selecionar aleatoriamente um modelo de pronúncia de lábio da biblioteca de modelo de pronúncia de lábio pré-configurada e tomar o modelo de
Petição 870190118447, de 14/11/2019, pág. 18/37
15/18 pronúncia de lábio como um modelo de pronúncia original do formato do lábio atual;
[0090] uma nona unidade de obtenção 5032, configurada para obter vértices do modelo de pronúncia original e um modelo de lábio original na biblioteca de modelo de pronúncia de lábio e calcular uma proporção de deslocamento de cada vértice do modelo de pronúncia original;
[0091] uma décima unidade de obtenção 5033, configurada para obter o deslocamento de vértice do quadro de vídeo atual multiplicando a proporção de deslocamento de cada vértice do modelo de pronúncia original pelo valor de extensão de movimento do formato do lábio do quadro de vídeo atual que corresponde ao vértice;
[0092] uma décima primeira unidade de obtenção 5034, configurada para obter o modelo de formato do lábio do quadro de vídeo atual realizando superposição do modelo de formato do lábio original obtido inserido pelo usuário, respectivamente, com o deslocamento de vértice do quadro de vídeo atual;
[0093] uma unidade de geração de conjunto de modelo 5035, configurada para dispor modelos de formato do lábio de todos os quadros de vídeo e gerar o conjunto de modelo de grid de formato do lábio.
[0094] Ainda, a nona unidade de obtenção 5032 que calcula a proporção de deslocamento de cada vértice do modelo de pronúncia original inclui:
[0095] a nona unidade de obtenção 5032 é configurada para calcular uma proporção de deslocamento x_hor/modelLength de um vértice z do modelo de pronúncia original na direção horizontal e calcular uma proporção de deslocamento y_ver/modelWidth do vértice z na direção vertical, onde modelLength e modelWidth são, respectivamente, o comprimento e a largura do modelo de lábio original na biblioteca de modelo de pronúncia de lábio e 0=<z< o número dos vértices do modelo
Petição 870190118447, de 14/11/2019, pág. 19/37
16/18 de pronúncia original.
[0096] Ainda, o módulo de obtenção 501 é ainda configurado para realizar processamento com ruído suprimido para os sinais de áudio.
[0097] Deverá ser notado que o processo detalhado de obtenção dos sinais de áudio e obtenção da proporção de extensão de movimento do formato do lábio de acordo com as características dos sinais de áudio pelo módulo de obtenção 501 pode referir-se à etapa 101 no primeiro exemplo.
[0098] Deverá ser notado que o processo detalhado de obtenção de o modelo de formato do lábio original inserido pelo usuário e geração de o valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento do formato do lábio obtida pelo primeiro módulo de geração 502 pode referir-se à etapa 102 no primeiro exemplo.
[0099] Deverá ser notado que o processo detalhado de geração do conjunto de modelo de grid de formato do lábio de acordo com o valor de extensão de movimento do formato do lábio obtido e a biblioteca de modelo de pronúncia de lábio pré-configurada pelo segundo módulo de geração 503 pode referir-se à etapa 103 no primeiro exemplo.
[00100] Nos exemplos da presente invenção, usando a biblioteca de modelo de pronúncia de lábio, o formato do lábio é alterado baseado na voz; comparado com a técnica anterior, as soluções técnicas proporcionadas pelos exemplos da presente invenção têm um algoritmo simples e de baixo custo.
[00101] Um quarto exemplo da presente invenção proporciona um aparelho para obtenção de uma animação de lábio. Conforme mostrado na figura 8, o aparelho inclui:
[00102] um módulo de obtenção 601, configurado para obter sinais de áudio e obter proporção de extensão de movimento do formato do lábio de acordo com características dos sinais de áudio;
Petição 870190118447, de 14/11/2019, pág. 20/37
17/18 [00103] um primeiro módulo de geração 602, configurado para obter um modelo de formato do lábio original inserido por um usuário e gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento do formato do lábio obtida;
[00104] um segundo módulo de geração 603, configurado para gerar um conjunto de modelo de grid de formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio pré-configurada; e [00105] um terceiro módulo de geração 604, configurado para gerar uma animação de lábio de acordo com o conjunto de modelo de grid de formato do lábio.
[00106] O módulo de obtenção 601, o primeiro módulo de geração 602 e o segundo módulo de geração 603 são, respectivamente, equivalentes ao módulo de obtenção, o primeiro módulo de geração e o segundo módulo de geração no terceiro exemplo e não serão descritos aqui.
[00107] Deverá ser notado que o processo detalhado de obtenção dos sinais de áudio e obtenção da proporção de extensão de movimento do formato do lábio de acordo com características dos sinais de áudio pelo módulo de obtenção 601 pode referir-se à etapa 101 no primeiro exemplo.
[00108] Deverá ser notado que o processo detalhado de obtenção de o modelo de formato do lábio original inserido pelo usuário e geração de o valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento do formato do lábio obtida pelo primeiro módulo de geração 602 pode referir-se à etapa 102 no primeiro exemplo.
[00109] Deverá ser notado que o processo detalhado de geração do conjunto de modelo de grid de formato do lábio de acordo com o valor
Petição 870190118447, de 14/11/2019, pág. 21/37
18/18 de extensão de movimento do formato do lábio obtido e a biblioteca de modelo de pronúncia de lábio pré-configurada pelo segundo módulo de geração 603 pode referir-se à etapa 103 no primeiro exemplo.
[00110] Nos exemplos da presente invenção, usando a biblioteca de modelo de pronúncia de lábio, o formato do lábio é alterado baseado na voz; comparado com a técnica anterior, as soluções técnicas proporcionadas pelos exemplos da presente invenção têm um algoritmo simples e de baixo custo.
[00111] As soluções técnicas dos quatro exemplos acima podem ser aplicadas a, mas não estão limitadas a, animação baseada em terminal de vídeo ou uma animação baseada em vídeo para página da web para entretenimento, podendo ser aplicável não apenas ao Chinês, mas também ao Inglês, Francês ou outras línguas. De forma a ser conveniente para descrição, o Chinês é tomado como um exemplo nos quatro exemplos acima e o processamento de outras línguas é similar e não será descrito aqui. O modelo de formato do lábio original inserido pelo usuário pode ser obtido de acordo com faces humanas, faces de animais e imagens de desenhos, etc; os sinais de áudio também são definidos pelo usuário, por exemplo, sinais de áudio de palavras normais ou músicas ou sinais de áudio especialmente processados.
[00112] Aqueles versados no campo entenderão que toda ou partes das etapas nos exemplos de método acima podem ser implementadas usando um hardware com instruções por um programa, o programa sendo armazenado em um meio legível em computador e o meio de armazenamento inclui um floppy disk, um disco rígido ou um CD.
[00113] O precedente são apenas exemplos preferidos da presente invenção e não são para uso na limitação do escopo de proteção da presente invenção. Qualquer modificação, substituição equivalente e aprimoramento feitos dentro do escopo da presente invenção deverão ser cobertos pelo escopo da proteção da presente invenção.

Claims (16)

  1. REIVINDICAÇÕES
    1. Método para alteração do formato do lábio em uma animação acionada por voz, compreendendo:
    obter (101) sinais de áudio, e caracterizado pelo fato de que o método ainda compreende:
    obter (101) proporção de extensão de movimento do formato do lábio de acordo com características dos sinais de áudio;
    obter (102) um modelo de formato do lábio original inserido por um usuário, e gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio; e gerar (103) um conjunto de modelo de grid de formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio préconfigurada;
    em que obter proporção de extensão de movimento do formato do lábio de acordo com características dos sinais de áudio compreende:
    cruzar os sinais de áudio, e obter um valor de dados de amostra máximo dos sinais de áudio;
    dividir os sinais de áudio em janelas, dividir cada janela em grupos, obter uma média de valores de dados de amostra em cada grupo, obter um grupo médio avgGroup de cada janela, em que o grupo médio avgGroup compreende médias que correspondem a grupos na janela; obter um valor máximo dentre o grupo médio avgGroup de cada janela, e obter um grupo máximo windowPeak que compreende valores máximos que correspondem a todas as janelas;
    obter um valor de extensão de movimento máximo do formato do lábio que corresponde a uma janela atual i de acordo com o grupo máximo windowPeak obtido e o valor de dados de amostra
    Petição 870190118447, de 14/11/2019, pág. 23/37
  2. 2/11 máximo obtido; e obter a proporção de extensão de movimento do formato do lábio em um quadro de vídeo atual que corresponde à janela atual i de acordo com o valor de extensão de movimento máximo do formato do lábio que corresponde à janela atual i, em que i>=0.
    2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que obter um valor de extensão de movimento máximo do formato do lábio que corresponde a uma janela atual i de acordo com o grupo máximo windowPeak obtido e o valor de dados de amostra máximo obtido compreende:
    obter uma média de valores de dados de amostra de cada grupo na janela atual i;
    obter um valor máximo windowPeak[i] dentre as médias que correspondem aos grupos na janela atual i;
    calcular uma escala[i] de proporção do valor máximo windowPeak[i] e um valor de dados de amostra de áudio máximo maxSampleValue;
    calcular o valor de extensão de movimento máximo extensão[i] do formato do lábio que corresponde à janela atual i, em que extensão[i]=escala[i] * maxLen;
    em que maxLen é o valor de extensão de movimento máximo do formato do lábio de todas as janelas.
  3. 3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que obter a proporção de extensão de movimento do formato do lábio em um quadro de vídeo atual que corresponde à janela atual i de acordo com o valor de extensão de movimento máximo do formato do lábio que corresponde à janela atual i compreende:
    obter uma proporção de extensão de movimento
    Petição 870190118447, de 14/11/2019, pág. 24/37
    3/11 scaleForFrame[k] do formato do lábio no j° quadro de vídeo que corresponde à janela atual i, em que scaleForFrame[k]=j*(scale[i] / (frameNumber/2));
    em que k=frameNumber*i+j, 0=<k<o número total de quadros de vídeo, frameNumber representa o número de quadros de vídeo que corresponde a cada janela, frameNumber = x * uma taxa de amostragem de vídeo, x representa duração de pronunciar cada sílaba, j é aumentado de 0 para frameNumber/2 e, então, é diminuído de frameNumber/2 para 0, e j é um número inteiro.
  4. 4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que:
    gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio compreende:
    calcular o valor de extensão de movimento Length*scaleForFrame[k] em uma direção horizontal, e calcular o valor de extensão de movimento Width*scaleForFrame[k] em uma direção vertical, em que Length e Width são, respectivamente, o comprimento e a largura do modelo de formato do lábio original.
  5. 5. Método, de acordo com qualquer uma das reivindicações
    1 a 4, caracterizado pelo fato de que gerar um conjunto de modelo de grid de formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio pré-configurada compreende:
    selecionar aleatoriamente um modelo de pronúncia de lábio a partir da biblioteca de modelo de pronúncia de lábio pré-configurada, e tomar o modelo de pronúncia de lábio como um modelo de pronúncia original de um formato do lábio atual;
    obter vértices do modelo de pronúncia original e um modelo de lábio original na biblioteca de modelo de pronúncia de lábio, e
    Petição 870190118447, de 14/11/2019, pág. 25/37
    4/11 calcular uma proporção de deslocamento de cada vértice do modelo de pronúncia original;
    obter deslocamentos de vértice do quadro de vídeo atual ao multiplicar a proporção de deslocamento de cada vértice do modelo de pronúncia original pelo valor de extensão de movimento do formato do lábio do quadro de vídeo atual que corresponde ao vértice;
    obter o modelo de formato do lábio do quadro de vídeo atual por superpor o modelo de formato do lábio original obtido inserido pelo usuário respectivamente com os deslocamentos de vértice do quadro de vídeo atual;
    dispor modelos de formato do lábio de todos os quadros de vídeo, e gerar o conjunto de modelo de grid de formato do lábio.
  6. 6. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que calcular uma proporção de deslocamento de cada vértice do modelo de pronúncia original compreende:
    calcular uma proporção de deslocamento x_hor/modelLength de um vértice z do modelo de pronúncia original na direção horizontal, e calcular uma proporção de deslocamento y_ver/modelWidth do vértice z na direção vertical;
    em que modelLength e modelWidth são, respectivamente, o comprimento e a largura do modelo de lábio original na biblioteca de modelo de pronúncia de lábio, x_hor e y_ver são, respectivamente, um deslocamento entre o vértice z do modelo de pronúncia original e o vértice z do modelo de lábio original na biblioteca de modelo de pronúncia de lábio na direção horizontal e um deslocamento entre o vértice z do modelo de pronúncia original e o vértice z do modelo de lábio original na biblioteca de modelo de pronúncia de lábio na direção vertical, e 0=<z< o número dos vértices do modelo de pronúncia original.
  7. 7. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que ainda compreende: realizar processamento com ruído
    Petição 870190118447, de 14/11/2019, pág. 26/37
    5/11 suprimido para os sinais de áudio.
  8. 8. Método para obtenção de uma animação de lábio, compreendendo:
    obter (201) sinais de áudio, e caracterizado pelo fato de que o método ainda compreende:
    obter (201) proporção de extensão de movimento do formato do lábio de acordo com características dos sinais de áudio;
    obter (202) um modelo de formato do lábio original inserido por um usuário, e gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio;
    gerar (203) um conjunto de modelo de grid de formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio préconfigurada; e gerar (204) uma animação de lábio de acordo com o conjunto de modelo de grid do formato do lábio;
    em que obter proporção de extensão de movimento do formato do lábio de acordo com características dos sinais de áudio compreende:
    cruzar os sinais de áudio, e obter um valor de dados de amostra máximo dos sinais de áudio;
    dividir os sinais de áudio em janelas, dividir cada janela em grupos, obter uma média de valores de dados de amostra em cada grupo, obter um grupo médio avgGroup de cada janela, em que o grupo médio avgGroup compreende médias que correspondem a grupos na janela; obter um valor máximo dentre o grupo médio avgGroup de cada janela, e obter um grupo máximo windowPeak que compreende valores máximos que correspondem a todas as janelas;
    obter um valor de extensão de movimento máximo do
    Petição 870190118447, de 14/11/2019, pág. 27/37
    6/11 formato do lábio que corresponde a uma janela atual i de acordo com o grupo máximo windowPeak obtido e o valor de dados de amostra máximo obtido; e obter a proporção de extensão de movimento do formato do lábio em um quadro de vídeo atual que corresponde à janela atual i de acordo com o valor de extensão de movimento máximo do formato do lábio que corresponde à janela atual i, em que i>=0.
  9. 9. Aparelho para alteração de formato do lábio em uma animação acionada por voz, caracterizado pelo fato de que compreende:
    um módulo de obtenção (501), configurado para obter sinais de áudio, e obter proporção de extensão de movimento de formato do lábio de acordo com características dos sinais de áudio;
    um primeiro módulo de geração (502), configurado para obter um modelo de formato do lábio original inserido por um usuário, e gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio; e um segundo módulo de geração (503), configurado para gerar um conjunto de modelo de grid de formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio pré-configurada;
    em que o módulo de obtenção (501) compreende:
    uma primeira unidade de obtenção (5011), configurada para cruzar os sinais de áudio, e obter um valor de dados de amostra máximo dos sinais de áudio;
    uma segunda unidade de obtenção (5012), configurada para dividir os sinais de áudio em janelas, dividir cada janela em grupos, obter uma média de valores de dados de amostra em cada grupo, obter um grupo médio avgGroup de cada janela, em que um grupo médio
    Petição 870190118447, de 14/11/2019, pág. 28/37
    7/11 avgGroup compreende médias que correspondem a grupos na janela; obter um valor máximo dentre um grupo médio avgGroup de cada janela, e obter um grupo máximo windowPeak que compreende valores máximos que correspondem a todas as janelas;
    uma terceira unidade de obtenção (5013), configurada para obter um valor de extensão de movimento máximo do formato do lábio que corresponde a uma janela atual i de acordo com o grupo máximo windowPeak obtido e o valor de dados de amostra máximo obtido; e uma quarta unidade de obtenção (5014), configurada para obter a proporção de extensão de movimento do formato do lábio em um quadro de vídeo atual que corresponde à janela atual i de acordo com o valor de extensão de movimento máximo do formato do lábio que corresponde à janela atual i, em que i>=0.
  10. 10. Aparelho, de acordo com a reivindicação 9, caracterizado pelo fato de que a segunda unidade de obtenção (5012) compreende:
    uma quinta unidade de obtenção, configurada para obter uma média de valores de dados de amostra de cada grupo na janela atual i;
    uma sexta unidade de obtenção, configurada para obter um valor máximo windowPeak[i] dentre as médias que correspondem aos grupos na janela atual i;
    uma sétima unidade de obtenção, configurada para calcular uma escala[i] de proporção do valor máximo windowPeak[i] e um valor de dados de amostra de áudio máximo maxSampleValue;
    uma oitava unidade de obtenção, configurada para calcular o valor de extensão de movimento máximo extensão[i] do formato do lábio que corresponde à janela atual i, em que extensão[i]=escala[i] * maxLen;
    em que maxLen é o valor de extensão de movimento máximo
    Petição 870190118447, de 14/11/2019, pág. 29/37
    8/11 do formato do lábio de todas as janelas.
  11. 11. Aparelho, de acordo com a reivindicação 9, caracterizado pelo fato de que a quarta unidade de obtenção (5014) é configurada para obter uma proporção de extensão de movimento scaleForFrame[k] do formato do lábio no j° quadro de vídeo que corresponde à janela atual i, em que scaleForFrame[k]=j*(scale[i] / (frameNumber/2)); em que k=frameNumber*i+j, 0=<k<o número total de quadros de vídeo, frameNumber representa o número de quadros de vídeo que corresponde a cada janela, frameNumber = x * taxa de amostragem de vídeo, x representa duração de pronunciar cada sílaba, j é aumentado de 0 para frameNumber/2 e, então, é diminuído de frameNumber/2 para 0, e j é um número inteiro.
  12. 12. Aparelho, de acordo com a reivindicação 11, caracterizado pelo fato de que o primeiro módulo de geração (502) é configurado para calcular o valor de extensão de movimento Length*scaleForFrame[k] em uma direção horizontal, calcular o valor de extensão de movimento Width*scaleForFrame[k] em uma direção vertical, em que o Length e a Width são, respectivamente, o comprimento e a largura do modelo de formato do lábio original.
  13. 13. Aparelho, de acordo com qualquer uma das reivindicações 9 a 12, caracterizado pelo fato de que o segundo módulo de geração (503) compreende:
    uma unidade de seleção (5031), configurada para selecionar aleatoriamente um modelo de pronúncia de lábio a partir da biblioteca de modelo de pronúncia de lábio pré-configurada, e tomar o modelo de pronúncia de lábio como um modelo de pronúncia original do formato do lábio atual;
    uma nona unidade de obtenção (5032), configurada para obter vértices do modelo de pronúncia original e um modelo de lábio original na biblioteca de modelo de pronúncia de lábio, e calcular uma
    Petição 870190118447, de 14/11/2019, pág. 30/37
    9/11 proporção de deslocamento de cada vértice do modelo de pronúncia original;
    uma décima unidade de obtenção (5033), configurada para obter deslocamento de vértice do quadro de vídeo atual ao multiplicar a proporção de deslocamento de cada vértice do modelo de pronúncia original pelo valor de extensão de movimento de formato do lábio do quadro de vídeo atual que corresponde ao vértice;
    uma décima primeira unidade de obtenção (5034), configurada para obter o modelo de formato do lábio do quadro de vídeo atual ao superpor o modelo de formato do lábio original obtido inserido pelo usuário respectivamente com os deslocamentos de vértice do quadro de vídeo atual;
    uma unidade de gerar conjunto de modelo (5035), configurada para dispor modelos de formato do lábio de todos os quadros de vídeo, e gerar o conjunto de modelo de grid de formato do lábio.
  14. 14. Aparelho, de acordo com a reivindicação 13, caracterizado pelo fato de que a nona unidade de obtenção (5032) é configurada para calcular uma proporção de deslocamento x_hor/modelLength de um vértice z do modelo de pronúncia original na direção horizontal, e calcular uma proporção de deslocamento y_ver/modelWidth do vértice z na direção vertical, em que modelLength e modelWidth são, respectivamente, o comprimento e a largura do modelo de lábio original na biblioteca de modelo de pronúncia de lábio, x_hor e y_ver são, respectivamente, um deslocamento entre o vértice z do modelo de pronúncia original e o vértice z do modelo de lábio original na biblioteca de modelo de pronúncia de lábio na direção horizontal e um deslocamento entre o vértice z do modelo de pronúncia original e o vértice z do modelo de lábio original na biblioteca de modelo de pronúncia de lábio na direção vertical, e 0=<z< o número dos vértices
    Petição 870190118447, de 14/11/2019, pág. 31/37
    10/11 do modelo de pronúncia original.
  15. 15. Aparelho, de acordo com a reivindicação 14, caracterizado pelo fato de que o módulo de obtenção (501) é ainda configurado para realizar processamento com ruído suprimido para os sinais de áudio.
  16. 16. Aparelho para obtenção de uma animação de lábio, caracterizado pelo fato de que compreende:
    um módulo de obtenção (601), configurado para obter sinais de áudio, e obter proporção de extensão de movimento de formato do lábio de acordo com características dos sinais de áudio;
    um primeiro módulo de geração (602), configurado para obter um modelo de formato do lábio original inserido por um usuário, e gerar um valor de extensão de movimento do formato do lábio de acordo com o modelo de formato do lábio original e a proporção de extensão de movimento obtida do formato do lábio;
    a segundo módulo de geração (603), configurado para gerar um conjunto de modelo de grid de formato do lábio de acordo com o valor de extensão de movimento gerado do formato do lábio e uma biblioteca de modelo de pronúncia de lábio pré-configurada; e um terceiro módulo de geração (604), configurado para gerar uma animação de lábio de acordo com o conjunto de modelo de grid de formato do lábio;
    em que o módulo de obtenção (601) compreende:
    uma primeira unidade de obtenção (5011), configurada para cruzar os sinais de áudio, e obter um valor de dados de amostra máximo dos sinais de áudio;
    uma segunda unidade de obtenção (5012), configurada para dividir os sinais de áudio em janelas, dividir cada janela em grupos, obter uma média de valores de dados de amostra em cada grupo, obter um grupo médio avgGroup de cada janela, em que um grupo médio
    Petição 870190118447, de 14/11/2019, pág. 32/37
    11/11 avgGroup compreende médias que correspondem a grupos na janela; obter um valor máximo dentre um grupo médio avgGroup de cada janela, e obter um grupo máximo windowPeak que compreende valores máximos que correspondem a todas as janelas;
    uma terceira unidade de obtenção (5013), configurada para obter um valor de extensão de movimento máximo do formato do lábio que corresponde a uma janela atual i de acordo com o grupo máximo windowPeak obtido e o valor de dados de amostra máximo obtido; e uma quarta unidade de obtenção (5014), configurada para obter a proporção de extensão de movimento do formato do lábio em um quadro de vídeo atual que corresponde à janela atual i de acordo com o valor de extensão de movimento máximo do formato do lábio que corresponde à janela atual i, em que i>=0.
BRPI1006026A 2009-01-19 2010-01-05 método e aparelho para alteração do formato de lábio e obtenção de animação de lábio em animação acionada por voz BRPI1006026B1 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2009100030839A CN101482976B (zh) 2009-01-19 2009-01-19 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置
PCT/CN2010/070026 WO2010081395A1 (zh) 2009-01-19 2010-01-05 语音驱动动画中嘴唇形状变化、获取嘴唇动画的方法及装置

Publications (3)

Publication Number Publication Date
BRPI1006026A2 BRPI1006026A2 (pt) 2016-05-10
BRPI1006026A8 BRPI1006026A8 (pt) 2017-10-10
BRPI1006026B1 true BRPI1006026B1 (pt) 2020-04-07

Family

ID=40880071

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI1006026A BRPI1006026B1 (pt) 2009-01-19 2010-01-05 método e aparelho para alteração do formato de lábio e obtenção de animação de lábio em animação acionada por voz

Country Status (7)

Country Link
US (1) US8350859B2 (pt)
CN (1) CN101482976B (pt)
BR (1) BRPI1006026B1 (pt)
CA (1) CA2744347C (pt)
MX (1) MX2011006703A (pt)
RU (1) RU2487411C2 (pt)
WO (1) WO2010081395A1 (pt)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101482976B (zh) 2009-01-19 2010-10-27 腾讯科技(深圳)有限公司 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置
CN102054287B (zh) * 2009-11-09 2015-05-06 腾讯科技(深圳)有限公司 面部动画视频生成的方法及装置
CN102368198A (zh) * 2011-10-04 2012-03-07 上海量明科技发展有限公司 通过嘴唇图像进行信息提示的方法及系统
CN110164437B (zh) * 2012-03-02 2021-04-16 腾讯科技(深圳)有限公司 一种即时通信的语音识别方法和终端
CN104392729B (zh) * 2013-11-04 2018-10-12 贵阳朗玛信息技术股份有限公司 一种动画内容的提供方法及装置
CN103705218B (zh) * 2013-12-20 2015-11-18 中国科学院深圳先进技术研究院 构音障碍识别的方法、系统和装置
CN104298961B (zh) * 2014-06-30 2018-02-16 中国传媒大学 基于口型识别的视频编排方法
CN106203235B (zh) * 2015-04-30 2020-06-30 腾讯科技(深圳)有限公司 活体鉴别方法和装置
CN104869326B (zh) * 2015-05-27 2018-09-11 网易(杭州)网络有限公司 一种配合音频的图像显示方法和设备
CN105405160B (zh) * 2015-10-14 2018-05-01 佛山精鹰传媒股份有限公司 一种简单规则模型变化效果的实现方法
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出系统
CN107808191A (zh) * 2017-09-13 2018-03-16 北京光年无限科技有限公司 虚拟人多模态交互的输出方法和系统
US10586368B2 (en) 2017-10-26 2020-03-10 Snap Inc. Joint audio-video facial animation system
US10635893B2 (en) * 2017-10-31 2020-04-28 Baidu Usa Llc Identity authentication method, terminal device, and computer-readable storage medium
CN108538308B (zh) * 2018-01-09 2020-09-29 网易(杭州)网络有限公司 基于语音的口型和/或表情模拟方法及装置
US10657972B2 (en) * 2018-02-02 2020-05-19 Max T. Hall Method of translating and synthesizing a foreign language
CN108538282B (zh) * 2018-03-15 2021-10-08 上海电力学院 一种由唇部视频直接生成语音的方法
WO2019219968A1 (en) * 2018-05-18 2019-11-21 Deepmind Technologies Limited Visual speech recognition by phoneme prediction
CN108847234B (zh) * 2018-06-28 2020-10-30 广州华多网络科技有限公司 唇语合成方法、装置、电子设备及存储介质
CN108986191B (zh) * 2018-07-03 2023-06-27 百度在线网络技术(北京)有限公司 人物动作的生成方法、装置及终端设备
US11568864B2 (en) * 2018-08-13 2023-01-31 Carnegie Mellon University Processing speech signals of a user to generate a visual representation of the user
CN111953922B (zh) * 2019-05-16 2022-05-27 南宁富联富桂精密工业有限公司 视频会议的人脸辨识方法、服务器及计算机可读存储介质
CN110277099A (zh) * 2019-06-13 2019-09-24 北京百度网讯科技有限公司 基于语音的嘴型生成方法和装置
CN111415677B (zh) * 2020-03-16 2020-12-25 北京字节跳动网络技术有限公司 用于生成视频的方法、装置、设备和介质
CN113240781A (zh) * 2021-05-20 2021-08-10 东营友帮建安有限公司 基于语音驱动及图像识别的影视动画制作方法、系统
CN113506563A (zh) * 2021-07-06 2021-10-15 北京一起教育科技有限责任公司 一种发音识别的方法、装置及电子设备
CN115222856B (zh) * 2022-05-20 2023-09-26 一点灵犀信息技术(广州)有限公司 表情动画生成方法及电子设备
US20230410396A1 (en) * 2022-06-17 2023-12-21 Lemon Inc. Audio or visual input interacting with video creation
CN116597857A (zh) * 2023-03-30 2023-08-15 广州赛灵力科技有限公司 一种语音驱动图像的方法、系统、装置及存储介质
CN119541530A (zh) * 2024-11-19 2025-02-28 北京清飞科技有限公司 语音驱动机器人嘴部开合的方法、装置、机器人、电子设备及计算机可读介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5426460A (en) * 1993-12-17 1995-06-20 At&T Corp. Virtual multimedia service for mass market connectivity
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
US6737572B1 (en) * 1999-05-20 2004-05-18 Alto Research, Llc Voice controlled electronic musical instrument
US6654018B1 (en) * 2001-03-29 2003-11-25 At&T Corp. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
CN1320497C (zh) * 2002-07-03 2007-06-06 中国科学院计算技术研究所 基于统计与规则结合的语音驱动人脸动画方法
EP1510973A3 (en) * 2003-08-29 2006-08-16 Samsung Electronics Co., Ltd. Method and apparatus for image-based photorealistic 3D face modeling
JP2006162760A (ja) * 2004-12-03 2006-06-22 Yamaha Corp 語学学習装置
CN100369469C (zh) * 2005-08-23 2008-02-13 王维国 语音驱动头部图像合成影音文件的方法
CN100386760C (zh) * 2005-09-20 2008-05-07 文化传信科技(澳门)有限公司 动画生成系统以及方法
CN100476877C (zh) * 2006-11-10 2009-04-08 中国科学院计算技术研究所 语音和文本联合驱动的卡通人脸动画生成方法
CN101482976B (zh) * 2009-01-19 2010-10-27 腾讯科技(深圳)有限公司 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置

Also Published As

Publication number Publication date
RU2487411C2 (ru) 2013-07-10
RU2011124736A (ru) 2013-02-27
CA2744347C (en) 2014-02-25
WO2010081395A1 (zh) 2010-07-22
US8350859B2 (en) 2013-01-08
BRPI1006026A2 (pt) 2016-05-10
MX2011006703A (es) 2011-07-28
CN101482976A (zh) 2009-07-15
US20110227931A1 (en) 2011-09-22
CA2744347A1 (en) 2010-07-22
BRPI1006026A8 (pt) 2017-10-10
CN101482976B (zh) 2010-10-27

Similar Documents

Publication Publication Date Title
BRPI1006026B1 (pt) método e aparelho para alteração do formato de lábio e obtenção de animação de lábio em animação acionada por voz
Xu et al. Qwen2. 5-omni technical report
CN108447474B (zh) 一种虚拟人物语音与口型同步的建模与控制方法
CN111145322B (zh) 用于驱动虚拟形象的方法、设备和计算机可读存储介质
Filntisis et al. Visual speech-aware perceptual 3d facial expression reconstruction from videos
CN113077537A (zh) 一种视频生成方法、存储介质及设备
CN112102449B (zh) 虚拟人物的生成方法、展示方法及装置、设备和介质
CN106653052A (zh) 虚拟人脸动画的生成方法及装置
CN113706669B (zh) 动画合成方法、装置、电子设备及存储介质
JP2003530654A (ja) キャラクタのアニメ化
Wan et al. Photo-realistic expressive text to talking head synthesis.
CN114581567B (zh) 一种声音驱动虚拟形象口型方法、装置及介质
CN112001323A (zh) 一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法
JP6711044B2 (ja) 画像処理装置、表示装置、アニメーション生成方法及びプログラム
CN112734889A (zh) 一种2d角色的口型动画实时驱动方法和系统
Wang et al. Computer-assisted audiovisual language learning
BRPI0922694B1 (pt) Método e aparelho para gerar animação de vídeo
Zhang et al. Speech-driven personalized gesture synthetics: Harnessing automatic fuzzy feature inference
KR20240083590A (ko) 동시조음 규칙을 조합하여 스피치 애니메이션을 자동으로 생성하는 방법
CN115881133A (zh) 用于交互的方法、装置、设备和存储介质
CN113744370B (zh) 动画合成方法、装置、电子设备以及存储介质
Qiang et al. MM-Sonate: Multimodal Controllable Audio-Video Generation with Zero-Shot Voice Cloning
WO2017027940A1 (pt) Método de síntese de animação facial 2d de fala expressiva
CN118691717B (zh) 视频生成方法、装置、设备以及存储介质
Li et al. A Survey of Talking-Head Generation Technology and Its Applications

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 07/04/2020, OBSERVADAS AS CONDICOES LEGAIS.