[go: up one dir, main page]

Ir para
Text-to-Speech

IA da Text-to-Speech

Converta texto em fala com som natural usando uma API desenvolvida com as melhores tecnologias de IA do Google.

Novos clientes ganham até US $300 em créditos para testar a Text-to-Speech e outros produtos do Google Cloud.

  • Melhore as interações com os clientes com respostas inteligentes e realistas

  • Envolva os usuários com a interface do usuário de voz nos seus dispositivos e aplicativos

  • Personalize sua comunicação com base na preferência do usuário por voz e idioma

Vantagens

Fala de alta fidelidade

Implante as tecnologias inovadoras do Google para gerar voz com entonação similar à humana. Criada com base na experiência em síntese de fala da DeepMind, a API proporciona vozes com qualidade semelhante às humanas.

Seleção de voz mais ampla

Escolha entre as mais de 380 vozes em mais de 75 idiomas e variantes, incluindo árabe, espanhol, hindi, mandarim, russo e muitos outros. Use a voz que mais combina com seu usuário e aplicativo.

Voz exclusiva

Crie uma voz exclusiva para representar sua marca em todos os pontos de contato com o cliente, em vez de usar uma voz comum compartilhada com outras organizações.

Demonstração

Coloque a Text-to-Speech em ação

Digite o que você quer ouvir, selecione um idioma e clique em “Speak It”.

Principais recursos

Principais recursos

Gemini-TTS

Sintetize falas de um ou vários locutores, de pequenos trechos a narrativas completas, sem perder a contextualidade. Você pode ditar o estilo, o sotaque, o ritmo, o tom e a expressão emocional com comandos simples de linguagem natural em mais de 75 localidades. Acesse o Media Studio ou confira nossa documentação para saber mais.

Chirp 3: vozes em alta definição

Crie agentes carismáticos usando as novas vozes de conversação espontânea baseadas no AudioML. Essas vozes oferecem áudio de alta qualidade, streaming de baixa latência e fala com som natural, incorporando hesitações humanas, emoções e entonação precisa. Acesse o Media Studio ou confira nossa documentação para saber mais.

Chirp 3: voz personalizada instantânea

Crie modelos de voz personalizados com apenas 10 segundos de entrada de áudio. Perfeito para videogames, audiolivros, podcasts e muito mais. Disponível em mais de 30 localidades. Acesse o Media Studio ou confira nossa documentação para saber mais.

Compatibilidade com comandos, texto e SSML

Controle a formatação de números e horários, a entrega, a pronúncia e a emoção usando scripting de texto simples, tags de SSML ou até mesmo comandos avançados de linguagem natural, dependendo da compatibilidade do modelo. Acesse o Media Studio ou confira nossa documentação para saber mais.

Documentação

Documentação

Quickstart

Gemini-TTS

Saiba como controlar de maneira precisa a síntese de voz com o Gemini-TTS, usando comandos em linguagem natural para ditar o estilo, o tom, o ritmo e a expressão emocional.

Quickstart

Visão geral do Chirp 3: Vozes em Alta Definição

Aprenda a sintetizar falas realistas e cheias de emoção usando o Chirp 3: Vozes em Alta Definição e a ajustar o áudio com controles avançados e práticas recomendadas de scripting.

Quickstart

Visão geral do Chirp 3: Voz Personalizada Instantânea

Crie modelos de voz personalizados e exclusivos para sua organização usando apenas 10 segundos de gravações de áudio. Com esse recurso, você pode gerar vozes pessoais rapidamente.

Tutorial

Como falar endereços com SSML

Aprenda a usar a Linguagem de Marcação de Síntese de Fala (SSML, na sigla em inglês) para transformar um arquivo de texto com endereços em áudio.

Google Cloud Basics

Noções básicas sobre a Text-to-Speech

Um guia para os conceitos fundamentais do uso da API Text-to-Speech.
Google Cloud Basics

Vozes e idiomas suportados

Procure por guias e recursos deste produto.

Não encontrou o que procura?

Casos de uso

Casos de uso

Caso de uso
Bots de voz em centrais de atendimento

Ofereça uma melhor experiência de voz para o atendimento ao cliente com bots de voz no Dialogflow que geram fala dinamicamente, em vez de reproduzir áudio estático, pré-gravado. Interaja com vozes sintetizadas de alta qualidade que proporcionam aos autores da chamada uma sensação de familiaridade e personalização.

Caso de uso
Geração de voz em dispositivos

Permita comunicações naturais com seus usuários, capacitando seus dispositivos a gerar vozes semelhantes às humanas como um leitor de texto. Crie uma interface de usuário de voz completa junto com a Speech-to-Text e a Natural Language para melhorar a experiência do usuário com interações fáceis e atrativas.

Caso de uso
EPGs (guias de programação eletrônica) acessíveis

Os EPGs podem ler o texto em voz alta para fornecer uma melhor experiência de usuário aos seus clientes e atender aos requisitos de acessibilidade para seus serviços e aplicativos. Experimente a demonstração do EPG.

Implemente com facilidade a funcionalidade de conversão de texto em voz nos EPGs para oferecer uma melhor experiência de usuário aos clientes e atender aos requisitos de acessibilidade para seus serviços e aplicativos. 

Gerar uma solução
Qual problema você está tentando resolver?
What you'll get:
Guia explicativo
Arquitetura de referência
Soluções pré-criadas disponíveis
Este serviço foi criado com a Vertex AI. Você precisa ter 18 anos ou mais para usá-lo. Não insira informações sensíveis, confidenciais ou pessoais.

Todos os recursos

Todos os recursos

Síntese de áudio de streaming

Potencialize seus agentes de IA com fala de latência ultrabaixa para conversas de qualidade em tempo real com o recurso de síntese de áudio de streaming.

Síntese de áudio longa

Sintetize até 1 milhão de bytes de entrada de maneira assíncrona com o recurso de síntese de áudios longos.

Seleção de voz e idioma

Escolha entre uma ampla seleção com mais de 380 vozes em mais de 75 idiomas e variantes, além de várias outras opções que vamos adicionar em breve.

Suporte a texto e SSML
Personalize sua fala com tags SSML que permitem a você adicionar pausas, números, formatação de data e hora, e outras instruções de pronúncia.
Ajuste de tom
Personalize o tom da sua voz selecionada em até 20 semitons acima ou abaixo do padrão.
Ajuste da taxa de fala
Aumente ou diminua a velocidade da sua fala em até quatro vezes.
Controle do ganho de volume

Aumente o volume da saída em até 16 dB ou reduza para até -96 dB.

APIs REST e gRPC integradas

Faça integrações facilmente com qualquer aplicativo ou dispositivo que possa enviar uma solicitação REST ou gRPC, incluindo smartphones, PCs, tablets e dispositivos de IoT, como carros, TVs e alto-falantes.

Flexibilidade no formato de áudio
Converta texto em MP3, Linear16, OGG Opus e vários outros formatos de áudio.
Perfis de áudio
Otimize para o tipo de alto-falante em que sua fala deve ser reproduzida, como fones de ouvido ou linhas telefônicas.

Preços

Preços

Os preços da Text-to-Speech se baseiam no número de caracteres enviados para que o serviço os sintetize em áudio a cada mês. O primeiro milhão de caracteres para vozes WaveNet é gratuito todos os meses. Para vozes padrão (não WaveNet), os primeiros 4 milhões de caracteres são gratuitos todos os meses. Depois que o Nível gratuito é atingido, a Text-to-Speech é cobrada a cada um milhão de caracteres de texto processado.

Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Google Cloud.

Vá além

Clientes novos ganham US$ 300 em créditos para testar a Text-to-Speech e outros produtos do Google Cloud.

Cloud Text-to-Speech
Google Cloud