Convierte texto en voz que suena natural con una API basada en las mejores tecnologías de IA de Google.
Los nuevos clientes reciben hasta 300 USD en crédito gratis para probar Text‐to‐Speech y otros productos de Google Cloud.
Mejora las interacciones con los clientes gracias a respuestas naturales e inteligentes
Capta el interés de los usuarios con una interfaz de voz en tus dispositivos y aplicaciones
Personaliza tus comunicaciones en función de las preferencias de voz e idioma del usuario
Ventajas
Despliega las vanguardistas tecnologías de Google para generar voces con una entonación natural. La API crea voces muy similares a las humanas, ya que se ha desarrollado gracias a los conocimientos sobre síntesis de voz de DeepMind.
Elige entre una gama de más de 380 voces para más de 75 idiomas y variaciones lingüísticas, incluidos árabe, español, hindi, mandarín y ruso, entre otros. Elige la voz que encaje mejor con tus usuarios y tu aplicación.
Crea una voz única que represente tu marca en todos los puntos de contacto con los clientes, en lugar de usar una voz común que también utilicen otras empresas.
Demo
Escribe lo que quieras, selecciona un idioma y haz clic en la opción de conversión a voz para oír lo que has escrito.
Características principales
Sintetiza la voz de uno o varios hablantes a partir de fragmentos cortos o narraciones completas, manteniendo la contextualidad. Dicta con precisión el estilo, el acento, el ritmo, el tono y la expresión emocional, todo ello mediante sencillas peticiones en lenguaje natural en más de 75 idiomas. Ve a Media Studio o consulta nuestra documentación para obtener más información.
Crea agentes atractivos que usen las voces de conversación espontáneas más recientes basadas en AudioLM. Estas voces ofrecen audio de alta calidad, streaming de baja latencia y una voz que suena natural, con vacilaciones propias de las personas, distintos grados de emoción y entonaciones precisas. Ve a Media Studio o consulta nuestra documentación para obtener más información.
Crea modelos de voz personalizados con tan solo 10 segundos de audio. Perfectos para videojuegos, audiolibros y pódcasts, entre otros. Disponible en más de 30 idiomas. Ve a Media Studio o consulta nuestra documentación para obtener más información.
Controla el formato de números y horas, la entrega, la pronunciación y la emoción mediante scripting de texto sin formato, etiquetas SSML o incluso peticiones de lenguaje natural eficaces, según la compatibilidad del modelo. Ve a Media Studio o consulta nuestra documentación para obtener más información.
Novedades
Suscríbete para recibir boletines informativos de Google Cloud con novedades sobre los productos, información de eventos, ofertas especiales y mucho más.
Documentación
Casos prácticos
Mejora la experiencia de voz del servicio de atención al cliente con los bots de voz de Dialogflow, que generan voces de forma dinámica en vez de reproducir audios estáticos que se han grabado previamente. Interactúa con voces sintetizadas de alta calidad que dan a los clientes una sensación de familiaridad y personalización.
Comunícate de forma natural con tus usuarios dotando a tus dispositivos de voces que emulan la voz humana, como un lector de texto. Desarrolla una interfaz de usuario de voz integral con Speech-to-Text y Natural Language, y mejora la experiencia de los usuarios con interacciones sencillas y agradables.
Es muy fácil activar la lectura en voz alta de las EPGs para proporcionar una mejor experiencia de usuario a los clientes y asegurarte de que tus servicios y aplicaciones cumplen los requisitos de accesibilidad. Prueba la demostración de las EPGs.
Implementa fácilmente la función de conversión de texto a voz en EPGs para proporcionar una mejor experiencia de usuario a los clientes y asegurarte de que tus servicios y aplicaciones cumplen los requisitos de accesibilidad.
Todas las características
Síntesis de audio en streaming | Potencia tus agentes de IA con una latencia ultrabaja en el habla para que las conversaciones sean fluidas y en tiempo real con la síntesis de audio en streaming. |
Síntesis de audios largos | Sintetiza de forma asíncrona hasta un millón de bytes de entrada con la función para sintetizar audios largos. |
Selección de voz e idioma | Elige entre una amplia gama de más de 380 voces para más de 75 idiomas y variaciones lingüísticas, que seguirá ampliándose en el futuro. |
Compatibilidad con textos y lenguaje SSML | Personaliza la forma de hablar con etiquetas SSML que te permiten añadir pausas y números, así como determinar el formato de las fechas y las horas, entre otras instrucciones de pronunciación. |
Ajuste del tono | Personaliza el tono de la voz seleccionada, hasta 20 semitonos por encima o por debajo de la opción predeterminada. |
Ajuste de la velocidad de elocución | Modifica la velocidad de elocución para que sea, por ejemplo, 4 veces más rápida o más lenta que la velocidad normal. |
Control de ganancia de volumen | Aumenta el volumen de la voz hasta 16 dB o disminúyelo hasta ‑96 dB. |
APIs REST y gRPC integradas | Es muy fácil integrar cualquier aplicación o dispositivo que pueda enviar solicitudes REST o gRPC, como teléfonos, ordenadores, tablets y dispositivos del Internet de las cosas (por ejemplo, coches, televisores o altavoces). |
Flexibilidad del formato de audio | Convierte texto a formatos de audio como MP3, LINEAR16 y Ogg Opus, entre otros. |
Perfiles de audio | Optimiza el sonido según el tipo de dispositivo que utilices para reproducir la voz (por ejemplo, auriculares o líneas telefónicas). |
Precios
El precio de Text-to-Speech se determina en función de la cantidad de caracteres que se envían cada mes al servicio para que los convierta en audio. El primer millón de caracteres de cada mes para voces de WaveNet es gratuito. En el caso de las voces estándar (es decir, que no son de WaveNet), los primeros 4 millones de caracteres de cada mes son gratuitos. Text‑to‑Speech se tarifica por cada millón de caracteres de texto procesado a partir del máximo correspondiente al nivel gratuito.
Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKUs de Google Cloud.
Los nuevos clientes reciben 300 USD en crédito gratis para probar Text‐to‐Speech y otros productos de Google Cloud.