Transcribir audio y video a texto | Voz a texto gratis

Arrastre y suelte cualquier archivo de audio o vídeo (MP3, WAV, MP4 y 20+ formatos). Grabe desde su micrófono en tiempo real. O pegue un enlace desde YouTube, Vimeo, TikTok y 1.300+ plataformas.

2. AI Transcribe con su elección de modelo

Elija entre más de 10 modelos de IA, incluyendo Whisper, NVIDIA Canary (precisión #1) y Moonshine. Detectar automáticamente el lenguaje de más de 100 opciones. Diarización del altavoz identifica quién dijo qué.

3. Exportar, Compartir o Integrar

Descargue como TXT, SRT, VTT, DOCX, JSON o PDF. Comparta a través del enlace. Utilice nuestra API para integrar la transcripción en su aplicación. Perfecto para subtítulos, notas de reuniones, podcasts y más.

Casos de uso popular

Todos los casos de uso →

Reuniones

Notas de la reunión y elementos de acción

Podcasts

Transcripciones y notas

Notas de clase y guías de estudio

Asuntos jurídicos

Depósitos y tribunales

Todo lo que necesita para audio y vídeo

Más de 70 herramientas gratuitas alimentadas por IA

Discurso al texto

Transcribir archivos de audio y vídeo

Transcripción en vivo

Transcripción del micrófono en tiempo real

Transcripciones de YouTube

Extraer subtítulos de cualquier vídeo

Editor de subtítulos

Editar archivos SRT y VTT en línea

Eliminador de ruido

Eliminar el ruido de fondo del audio

Convertidor de audio

MP3, WAV, FLAC, OGG, AAC y más

Desinstalador vocal

Aislar las voces o retirarlas

Recortador de audio

Cortar y recortar archivos de audio

Convertidor de subtítulos

Formatos SRT, VTT, SSA, SBV

Actas de las reuniones

Extraer elementos de acción y resúmenes

Texto a hablar

Convertir texto en habla natural

Traductor de subtítulos

Traducir subtítulos a más de 100 idiomas

Ver todas las herramientas 70+ →

100+

Idiomas admitidos

70+

Herramientas gratuitas

1,300+

Plataformas apoyadas

Exportar formatos

API de desarrollador-primero

Integre voz a texto en su aplicación en cuestión de minutos. API RESTful con streaming WebSocket en tiempo real.

REST + WebSocket — Carga de archivos y streaming en tiempo real

Modelos múltiples — Whisper, Canary, Enhanced & more

Diarización del altavoz — Autodetectar quién dijo qué

Salida flexible — JSON, TXT, SRT, VTT con marcas de tiempo de palabra

API Docs Zona de juegos

import requests

response = requests.post(
    "https://api.stt.ai/v1/transcribe",
    headers={"Authorization": f"Bearer {API_KEY}"},
    files={"file": open("meeting.mp3", "rb")},
    data={
        "model": "large-v3-turbo",
        "language": "auto",
        "diarize": "true",
        "response_format": "json",
    },
)

result = response.json()
for seg in result["segments"]:
    print(f"{seg['speaker']}: {seg['text']}")

import fs from "fs";

const form = new FormData();
form.append("file", fs.createReadStream("meeting.mp3"));
form.append("model", "large-v3-turbo");
form.append("language", "auto");
form.append("diarize", "true");

const res = await fetch("https://api.stt.ai/v1/transcribe", {
  method: "POST",
  headers: { Authorization: `Bearer ${API_KEY}` },
  body: form,
});

const { segments } = await res.json();
segments.forEach(s =>
  console.log(`${s.speaker}: ${s.text}`)
);

¿Cambiando de otro discurso a un servicio de texto?

STT.ai vs Otter.ai STT.ai vs TurboScribe STT.ai vs Fireflies STT.ai vs Rev Comparar todos →

Precios simples y transparentes

Empieza gratis. Escala a medida que creces.

Libre

$0/mo

600 min para empezar

5 idiomas
Exportación de TXT y SRT
Acceso a la API

Iniciador

$9/mo

3.000 min/mes

Más de 100 idiomas
Todos los modelos de IA
Todos los formatos de exportación

MÁS POPULAR

Pro

$19/mo

7.500 min/mes

Transcripciones privadas
Asientos de equipo ilimitados
Tratamiento prioritario

Negocios

$39/mo

20.000 min/mes

Todo en Pro
Almacenamiento de 50K min
Chat ilimitado con IA

Ver todos los planes y precios →

Idiomas compatibles

Todos los más de 100 idiomas →

English Spanish French German Japanese Chinese Arabic Hindi Portuguese Russian Korean Italian Turkish Dutch Polish +85 más

¿Listo para transcribir?

Carga tu primer archivo gratis. Sin tarjeta de crédito, sin registro. 600 minutos para comenzar en el plan gratuito.

Iniciar la transcripción

Preguntas frecuentes

discurso al texto se ejecuta en su navegador: pega una URL, carga un archivo o graba desde su micrófono. STT.ai elige el modelo de IA y devuelve la transcripción en menos de 5 minutos. Exportar como TXT, SRT, VTT, DOCX, JSON o PDF.

Sí, cada visitante tiene 600 minutos libres para empezar con STT.ai, utilizable para discurso al texto lo mismo que cualquier otro flujo de trabajo. Los planes pagados comienzan con $5/mes desbloquear archivos más largos, transcripciones privadas y cola de prioridad.

discurso al texto se ejecuta en los mismos modelos de IA que el resto de STT.ai — nuestros mejores modelos alcanzan 95-97% de precisión en voz limpia (3-5% de tasa de error de Word en los puntos de referencia).

discurso al texto puede funcionar en cualquiera de los modelos de STT.ai 10+ — STT.ai Enhanced (más preciso), Whisper Large V3 (99 idiomas), NVIDIA Canary (#1 WER en langs soportados), Whisper Turbo (rápido), Moonshine (peso ligero), y más.

Sí. Cada transcripción exporta como SRT o VTT — trabaja con YouTube, Vimeo, TikTok, VLC, y cada reproductor de vídeo importante. La herramienta de subtítulos de grabación los superpone al vídeo como su-des.

Sí. Diarización de altavoz automáticamente etiqueta cada voz (hablador 1, altavoz 2,...) y puede cambiar el nombre en el editor incorporado. Funciona en todos los modelos y lenguajes.

La mayoría de los trabajos discurso al texto terminan en menos de 5 minutos. Un archivo de audio de 1 hora normalmente se completa en 2-3 minutos con nuestros modelos más rápidos. La velocidad depende del modelo elegido y la carga actual de GPU.

discurso al texto acepta más de 20 formatos — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, y más. Salida a TXT, SRT, VTT, DOCX, JSON, o PDF.

Sí. Los archivos de audio enviados a discurso al texto se procesan y eliminan por defecto. Los planes Pro añaden cifrado del lado del cliente, incluso si se rompe la base de datos de STT.ai, sus transcripciones son ilegibles sin su clave. Los datos nunca se utilizan para la formación de modelos sin opt-in explícito.

Sí. STT.ai ofrece una API REST con Python y SDKs Node.js, además de un servidor MCP para Claude y Cursor, todo utilizable para flujos de trabajo discurso al texto. El nivel gratuito de API incluye 100 minutos/mes.

Sí. Cada transcripción se abre en el editor integrado donde puede corregir palabras, cambiar el nombre de los altavoces, ajustar marcas de tiempo y añadir notas. Todos los cambios se guardan automáticamente.

Cada transcripción obtiene una URL compartida única. Exportar a DOCX o PDF para el correo electrónico. Planes Pro añadir enlaces permanentes y protegidos con contraseña — útiles para el trabajo del cliente.

STT.ai maneja 1.300 plataformas más, incluyendo YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, hosts de podcasts, y más. La transcripción de URL funciona con contenido disponible únicamente para el público — las fuentes protegidas por DRM no pueden ser transcritas.

Modelos de discurso a texto

Cómo funciona STT.ai

1. Cargar, registrar o pegar URL

2. AI Transcribe con su elección de modelo

3. Exportar, Compartir o Integrar

Casos de uso popular

Todo lo que necesita para audio y vídeo

API de desarrollador-primero

Precios simples y transparentes

Idiomas compatibles

¿Listo para transcribir?

Preguntas frecuentes

¿Cómo funciona discurso al texto en STT.ai?

Is discurso al texto free?

¿Qué tan preciso es discurso al texto?

¿Qué modelos de IA puedo utilizar para discurso al texto?

¿Puedo obtener subtítulos de discurso al texto?

¿Detecta discurso al texto diferentes altavoces?

¿Cuánto tiempo tarda discurso al texto?

¿Qué formatos de entrada soporta discurso al texto?

¿Mi audio es privado cuando uso discurso al texto?

¿Hay una API discurso al texto?

¿Puedo editar una transcripción de discurso al texto después?

¿Cómo puedo compartir lo que discurso al texto produce?

¿Qué otras plataformas funcionan más allá de discurso al texto?