Convertissez du texte en discours naturel à l'aide d'une API optimisée par les meilleures technologies d'IA de Google.
Les nouveaux clients bénéficient d'un maximum de 300 $ de crédits pour essayer Text-to-Speech et d'autres produits Google Cloud.
Améliorez les interactions avec vos clients grâce à des réponses intelligentes et réalistes.
Boostez l'engagement des utilisateurs grâce à une interface vocale sur vos appareils et applications.
Personnalisez votre communication en fonction des préférences de voix et de langue de vos utilisateurs.
Avantages
Déployez la technologie révolutionnaire de Google pour générer du discours aux intonations quasiment humaines. Créée grâce à l'expertise en synthèse vocale de DeepMind, l'API fournit des voix très proches des voix humaines.
Faites votre choix parmi plus de 380 voix et plus de 75 langues et variantes, incluant l'arabe, l'espagnol, l'hindi, le mandarin, le russe et plus encore. Sélectionnez la voix qui convient le mieux à votre utilisateur et votre application.
Différenciez-vous des autres organisations : au lieu d'utiliser une voix générique, créez une voix unique qui incarne votre marque à tous les points de contact avec les clients.
Démonstration
Saisissez le texte de votre choix, choisissez une langue, puis cliquez sur "Speak It" (Synthétiser) pour l'entendre.
Principales fonctionnalités
Synthétisez des discours à un ou plusieurs locuteurs, allant de courts extraits à des récits complets, tout en conservant la contextualité. Vous pouvez dicter précisément le style, l'accent, le rythme, le ton et les émotions exprimées, le tout en utilisant des prompts simples en langage naturel dans plus de 75 langues et variantes. Accédez à Media Studio ou consultez notre documentation pour en savoir plus.
Créez des agents engageants à l'aide des dernières voix naturelles basées sur AudioLM. Ces voix offrent un son de haute qualité, un streaming à faible latence et un discours spontané, avec des hésitations, une palette émotionnelle et une intonation fidèles à la voix humaine. Accédez à Media Studio ou consultez notre documentation pour en savoir plus.
Créez des modèles de voix personnalisés à partir d'un enregistrement audio de seulement 10 secondes. Idéale pour les jeux vidéo, les livres audio, les podcasts et plus encore, cette fonctionnalité est disponible dans plus de 30 pays. Accédez à Media Studio ou consultez notre documentation pour en savoir plus.
Contrôlez le format des nombres et de l'heure, la diffusion, la prononciation et l'émotion à l'aide de scripts en texte brut simples, de balises SSML ou même de prompts en langage naturel efficaces, selon la prise en charge du modèle. Accédez à Media Studio ou consultez notre documentation pour en savoir plus.
Nouveautés
Inscrivez-vous à la newsletter Google Cloud pour recevoir des informations sur les produits et événements, des offres spéciales et bien plus encore.
Documentation
Cas d'utilisation
Proposez une meilleure expérience vocale au sein de votre service client grâce aux bots vocaux sur Dialogflow : générez du discours de manière dynamique plutôt que de diffuser des messages audio statiques pré-enregistrés. Boostez l'engagement grâce à des voix synthétiques de haute qualité donnant aux interlocuteurs un sentiment de familiarité et de personnalisation.
Établissez une communication naturelle avec vos utilisateurs en utilisant des voix humaines pour lire du texte sur vos appareils. Développez une interface vocale de bout en bout avec Speech-to-Text et Natural Language, et améliorez l'expérience utilisateur grâce à des interactions faciles et engageantes.
Permettez aux EPG de lire du texte à voix haute en toute simplicité, afin d'améliorer l'expérience utilisateur et de répondre aux exigences d'accessibilité de vos services et applications. Découvrez comment utiliser les EPG.
Implémentez la fonctionnalité de synthèse vocale dans les EPG en toute simplicité, afin d'améliorer l'expérience utilisateur et de répondre aux exigences d'accessibilité de vos services et applications.
Toutes les fonctionnalités
Synthèse audio en flux continu | Optimisez vos agents IA avec une latence ultra-faible pour des conversations fluides en temps réel grâce à la synthèse audio en flux. |
Synthèse audio longue | Synthétisez de manière asynchrone jusqu'à un million d'octets d'entrée avec la synthèse audio longue. |
Sélection de voix et de langues | Faites votre choix parmi une large sélection de plus de 380 voix dans plus de 75 langues et variantes, enrichie prochainement. |
Texte et compatibilité SSML | Personnalisez votre discours en ajoutant des balises SSML. Elles vous permettent d'insérer des pauses, des nombres, des dates et heures, ainsi que des instructions de prononciation. |
Réglage de la hauteur de voix | Personnalisez la hauteur de la voix sélectionnée, jusqu'à 20 demi-tons en plus ou en moins par rapport au paramètre par défaut. |
Réglage de la vitesse d'élocution | Ajustez la vitesse d'élocution pour obtenir un discours quatre fois plus lent ou plus rapide que la normale. |
Contrôle du volume | Augmentez le volume de la sortie (jusqu'à 16 dB en plus) ou réduisez-le (jusqu'à 96 dB en moins). |
Intégration des API REST et gRPC | Profitez de la compatibilité avec tous les appareils et applications qui peuvent envoyer des requêtes REST ou gRPC, tels que les téléphones, les ordinateurs, les tablettes et les appareils IoT (voitures, téléviseurs, enceintes, etc.). |
Flexibilité du format audio | Convertissez du texte aux formats audio MP3, Linear16, Ogg Opus, etc. |
Profils audio | Optimisez la lecture pour le type de haut-parleur diffusant l'audio (casque ou ligne téléphonique, par exemple). |
Tarification
L'utilisation de Text-to-Speech est facturée mensuellement en fonction du nombre de caractères envoyés au service pour synthèse audio. Pour les voix WaveNet, le premier million de caractères est gratuit chaque mois. Pour les voix standards (autres que WaveNet), les quatre premiers millions de caractères sont gratuits chaque mois. Après la première tranche gratuite, Text-to-Speech est facturé par tranche d'un million de caractères texte traités.
Si vous ne payez pas en USD, les tarifs indiqués dans votre devise sur la page des codes SKU de Google Cloud s'appliquent.
Les nouveaux clients bénéficient de 300 $ de crédits pour essayer Text-to-Speech et d'autres produits Google Cloud.