Audio & Video in Text umwandeln | Kostenlose Spracherkennung

Clientseitig verschlüsselter Speicher — Ihre Transkripte werden in Ihrem Browser verschlüsselt. Auch wir können sie nicht lesen. Erfahren Sie, wie es funktioniert →

Von Fachleuten weltweit vertraut

Podcaster Journalisten Forscher Schüler Juristische Teams Medizinische Pros

Rede zu Textmodellen

Wählen Sie die beste Engine für Ihre Audio

Alle Modelle anzeigen →

Wie funktioniert STT.ai?

Drei Schritte zur genauen Transkription

1. URL hochladen, aufzeichnen oder einfügen

Ziehen Sie alle Audio- oder Videodateien (MP3, WAV, MP4 und 20+ Formate) aus Ihrem Mikrofon in Echtzeit auf. Oder fügen Sie einen Link von YouTube, Vimeo, TikTok und 1.300+ Plattformen ein.

2. KI transkribiert mit Ihrer Wahl des Modells

Wählen Sie aus 10 + KI-Modelle einschließlich Whisper, NVIDIA Canary (#1 Genauigkeit) und Moonshine. Auto-Detektion Sprache aus 100 + Optionen. Lautsprecherdiarisierung identifiziert, wer was gesagt hat.

3. Exportieren, Teilen oder Integrieren

Downloaden Sie als TXT, SRT, VTT, DOCX, JSON oder PDF. Über den Link teilen. Nutzen Sie unsere API, um Transkription in Ihre App zu integrieren. Perfekt für Untertitel, Besprechungsnotizen, Podcasts und mehr.

Populäre Anwendungsfälle

Alle Anwendungsfälle →

Sitzungen

Sitzungsnotizen & Aktionspunkte

Podcasts

Texte & Notizen anzeigen

Untertitel

SRT, VTT & mehr

Medizinisch

Sichere Transkription

Vorträge

Klassennotizen und Studienleitfäden

Rechtsvorschriften

Depositen & Gericht

Alles, was Sie für Audio & Video benötigen

70+ kostenlose Werkzeuge mit KI

Rede zum Text

Audio- und Videodateien übertragen

Live-Transkription

Echtzeit-Mikrofontranskription

YouTube-Transkriptionen

Bildunterschriften aus jedem Video extrahieren

Untertiteleditor

SRT & VTT-Dateien online bearbeiten

Geräuschentferner

Hintergrundgeräusche aus Audio entfernen

Audio-Konverter

MP3, WAV, FLAC, OGG, AAC & mehr

Vocal Remover

Vocals isolieren oder entfernen

Audio-Trimmer

Audiodateien ausschneiden und trimmen

Bildunterschrifts-Konverter

SRT-, VTT-, SSA-, SBV-Formate

Sitzungsprotokoll

Aktionspunkte & Zusammenfassungen extrahieren

Text in die Rede

Text in natürliche Sprache konvertieren

Untertitel Übersetzer

Untertitel in 100+ Sprachen übersetzen

Alle 70+ Werkzeuge anzeigen →

100+

Unterstützte Sprachen

70+

Kostenlose Werkzeuge

1,300+

Unterstützte Plattformen

Formate exportieren

Entwickler-Erste API

Integrieren Sie in wenigen Minuten Sprach-zu-Text in Ihre App. RESTful API mit Echtzeit-WebSocket-Streaming.

REST + WebSocket — Datei-Upload und Echtzeit-Streaming

Mehrere Modelle — Whisper, Canary, Enhanced & more

Wahl des Sprechers — Auto-Erkennen, wer was gesagt hat

Flexible Leistung — JSON, TXT, SRT, VTT mit Wortzeitstempeln

API Docs Spielplatz

import requests

response = requests.post(
    "https://api.stt.ai/v1/transcribe",
    headers={"Authorization": f"Bearer {API_KEY}"},
    files={"file": open("meeting.mp3", "rb")},
    data={
        "model": "large-v3-turbo",
        "language": "auto",
        "diarize": "true",
        "response_format": "json",
    },
)

result = response.json()
for seg in result["segments"]:
    print(f"{seg['speaker']}: {seg['text']}")

import fs from "fs";

const form = new FormData();
form.append("file", fs.createReadStream("meeting.mp3"));
form.append("model", "large-v3-turbo");
form.append("language", "auto");
form.append("diarize", "true");

const res = await fetch("https://api.stt.ai/v1/transcribe", {
  method: "POST",
  headers: { Authorization: `Bearer ${API_KEY}` },
  body: form,
});

const { segments } = await res.json();
segments.forEach(s =>
  console.log(`${s.speaker}: ${s.text}`)
);

Wechseln von einer anderen Rede zu einem Textdienst?

STT.ai vs Otter.ai STT.ai vs TurboScribe STT.ai vs Fireflies STT.ai vs Rev Alle vergleichen →

Einfache, transparente Preisgestaltung

Starten Sie frei, skalieren Sie, wie Sie wachsen.

Frei

$0/m

600 min bis zum Beginn

5 Sprachen
TXT & SRT-Export
API-Zugriff

Starter

$9/m

3,000 min/Monat

100+ Sprachen
Alle KI-Modelle
Alle Exportformate

MÖGLICHSTEN POPULAR

Pro

$19/m

7.500 min/Monat

Private Transkripte
Unbegrenzte Mannschaftssitze
Vorrangige Verarbeitung

Unternehmen

$39/m

20 000 min/Monat

Alles in Pro
Lagerung von 50K min
Unbegrenzter AI-Chat

Alle Pläne & Preise anzeigen →

Unterstützte Sprachen

Alle 100+ Sprachen →

English Spanish French German Japanese Chinese Arabic Hindi Portuguese Russian Korean Italian Turkish Dutch Polish +85 mehr

Bereit zum Transkribieren?

Laden Sie Ihre erste Datei kostenlos. Keine Kreditkarte, keine Anmeldung. 600 Minuten, um auf den freien Plan zu starten.

Transkribieren starten

Häufig gestellte Fragen

Rede zu Text läuft in Ihrem Browser: Fügen Sie eine URL ein, laden Sie eine Datei hoch oder nehmen Sie das Mikrofon auf. STT.ai wählt das AI-Modell und gibt das Transkript in weniger als 5 Minuten zurück. Exportieren Sie als TXT, SRT, VTT, DOCX, JSON oder PDF.

Ja — jeder Besucher erhält 600 freie Minuten, um auf STT.ai zu beginnen, verwendbar für Rede zu Text das gleiche wie jeder andere Workflow. Bezahlte Pläne ab $ 5 / Monat entsperren längere Dateien, private Transkripte und Priorität Warteschlange.

Rede zu Text läuft auf den gleichen AI-Modellen wie der Rest von STT.ai - unsere besten Modelle erreichen 95-97% Genauigkeit bei sauberer Sprache (3-5% Word Error Rate auf Benchmarks). Schalten Sie Modelle flugs, wenn der erste Pass unter Ihrem Ziel liegt.

Rede zu Text kann auf jedem der STT.ai 10+ Modelle laufen — STT.ai Enhanced (am genauesten), Whisper Large V3 (99 Sprachen), NVIDIA Canary (#1 WER auf unterstützten langs), Whisper Turbo (schnell), Moonshine (leichtgewichtig) und mehr.

Ja. Jeder Transkript-Export als SRT oder VTT – funktioniert mit YouTube, Vimeo, TikTok, VLC und jedem großen Videoplayer. Das Werkzeug mit Burn-Subtitles überlagert sie als Hardsubs auf Video.

Ja. Die Lautsprecherdiarisierung markiert automatisch jede Stimme (Speaker 1, Speaker 2,...) und Sie können sie im integrierten Editor umbenennen. Funktioniert über alle Modelle und Sprachen.

Die meisten Rede zu Text Jobs beenden in weniger als 5 Minuten. Eine 1-Stunden-Audiodatei komplettiert in der Regel in 2-3 Minuten mit unseren schnellsten Modellen. Geschwindigkeit hängt von gewählten Modell und aktuelle GPU-Last.

Rede zu Text akzeptiert 20+ Formate — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI und mehr. Ausgabe auf TXT, SRT, VTT, DOCX, JSON oder PDF.

Ja. Audiodateien, die auf Rede zu Text eingereicht werden, werden standardmäßig verarbeitet und gelöscht. Pro Pläne fügen Client-seitige Verschlüsselung hinzu – auch wenn STT.ais Datenbank verletzt wird, sind Ihre Transkripte ohne Ihren Schlüssel unlesbar. Daten werden nie für Modelltraining ohne explizites Opt-In verwendet.

Ja. STT.ai bietet eine REST API mit Python und Node.js SDKs sowie einen MCP Server für Claude und Cursor – alle für Rede zu Text Workflows nutzbar. Kostenlose API-Ebene enthält 100 Minuten/Monat.

Ja. Jedes Transkript öffnet sich im integrierten Editor, wo Sie Wörter korrigieren, Lautsprecher umbenennen, Zeitstempel anpassen und Notizen hinzufügen können. Alle Änderungen speichern automatisch.

Jedes Transkript erhält eine einzigartige freigebende URL. Exportieren Sie nach DOCX oder PDF für E-Mail. Pro Pläne fügen passwortgeschützte und dauerhafte Links hinzu – nützlich für die Client-Arbeit.

STT.ai verarbeitet 1.300+ Plattformen, darunter YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, Podcast-Hosts und mehr. URL-Transkription funktioniert nur mit öffentlich zugänglichen Inhalten — DRM-geschützte Quellen können nicht transkribiert werden.

Rede zu Textmodellen

Wie funktioniert STT.ai?

1. URL hochladen, aufzeichnen oder einfügen

2. KI transkribiert mit Ihrer Wahl des Modells

3. Exportieren, Teilen oder Integrieren

Populäre Anwendungsfälle

Alles, was Sie für Audio & Video benötigen

Entwickler-Erste API

Einfache, transparente Preisgestaltung

Unterstützte Sprachen

Bereit zum Transkribieren?

Häufig gestellte Fragen

Wie funktioniert Rede zu Text auf STT.ai?

Ist Rede zu Text kostenlos?

Wie genau ist Rede zu Text?

Welche AI-Modelle kann ich für Rede zu Text verwenden?

Kann ich Untertitel von Rede zu Text bekommen?

Erkennt Rede zu Text verschiedene Lautsprecher?

Wie lange dauert Rede zu Text?

Welche Eingabeformate unterstützt Rede zu Text?

Ist mein Audio privat, wenn ich Rede zu Text benutze?

Gibt es eine API für Rede zu Text?

Kann ich danach ein Rede zu Text-Transkript bearbeiten?

Wie teile ich das, was Rede zu Text produziert?

Welche anderen Plattformen funktionieren über Rede zu Text hinaus?