Chuyển đổi âm thanh và video thành văn bản | Nhận dạng giọng nói miễn phí

Bộ nhớ được mã hóa phía máy khách — Bản ghi của anh được mã hóa trong trình duyệt của anh, ngay cả chúng tôi cũng không thể đọc được. Hãy học cách làm việc →

Được các chuyên gia tin tưởng trên toàn thế giới

Podcasters Báo chí Nghiên cứu Sinh viên Nhóm pháp lý Y tế

Mô hình chuyển từ nói sang văn bản

Chọn bộ xử lý âm thanh tốt nhất

Xem tất cả các mẫu →

STT.ai hoạt động như thế nào

Ba bước để phiên âm chính xác

1. Tải lên, ghi, hoặc dán URL

Kéo và thả bất kỳ tập tin âm thanh hay video nào (MP3, WAV, MP4, và hơn 20 định dạng). Ghi âm từ micro của bạn trong thời gian thực. Hoặc dán một liên kết từ YouTube, Vimeo, TikTok, và hơn 1.300 nền tảng.

2. AI Transcribes with Your Choice of Model

Chọn từ 10+ mô hình AI bao gồm Whisper, NVIDIA Canary (# chính xác số 1), và Moonshine. Tự động phát hiện ngôn ngữ từ 100+ tùy chọn. Đánh dấu người nói để xác định ai nói gì.

3. Xuất, chia sẻ, hoặc tích hợp

Tải về dạng TXT, SRT, VTT, DOCX, JSON, hoặc PDF. Chia sẻ qua liên kết. Dùng API của chúng tôi để tích hợp phiên dịch vào ứng dụng của bạn. Tốt cho phụ đề, ghi chú cuộc họp, podcast, và nhiều hơn nữa.

Tình huống sử dụng phổ biến

Tất cả trường hợp sử dụng →

Hội nghị

Ghi chú cuộc họp và mục hành động

Podcast

& Hiện ghi chú

Tựa đề

SRT, VTT và nhiều hơn

Y tế

Bản dịch an toàn

Tập đọc

Ghi chú lớp học và hướng dẫn học tậpName

Luật

Tòa án

Mọi thứ bạn cần cho âm thanh và hình ảnhName

70+ công cụ miễn phí được hỗ trợ bởi AI

Từ nói sang văn bản

Transcript tập tin âm thanh và video

Phiên âm trực tiếp

Phiên âm micro thời gian thực

Bản dịch YouTube

Xuất phụ đề từ bất kỳ video nào

Bộ biên tập phụ đề

Sửa tập tin SRT & VTT trực tuyến

Bỏ nhiễu

Xoá tiếng ồn nền khỏi âm thanh

Biến đổi âm thanhName

MP3, WAV, FLAC, OGG, AAC và nhiều hơn nữa

Bộ xóa giọng hát

Điều khiển giọng nói

Bộ cắt âm thanhName

Cắt và cắt gọt tập tin âm thanh

Biến đổi tiêu đề

Định dạng SRT, VTT, SSA, SBV

Bản ghi nhớ cuộc họp

Nhập & tổng hợp

Văn bản sang Giọng nóiComment

Chuyển văn bản thành giọng nói tự nhiên

Trình dịch phụ đề

Dịch phụ đề sang hơn 100 ngôn ngữ

Xem tất cả 70+ công cụ →

100+

Ngôn ngữ được hỗ trợ

70+

Công cụ miễn phí

1,300+

Nền tảng được hỗ trợ

Định dạng xuất

API của nhà phát triển

Tạo và chia sẻ các video trên YouTube. ^ “Review: The RESTful API with WebSocket streaming”.

REST + WebSocket — Tải lên tập tin và truyền trực tiếp

Nhiều mô hình — Whisper, Canary, Cải tiến và nhiều hơn

Tự động — Tự động phát hiện ai nói gì

Xuất linh hoạt — JSON, TXT, SRT, VTT với dấu thời gian từ

Tài liệu API Sân chơiName

import requests

response = requests.post(
    "https://api.stt.ai/v1/transcribe",
    headers={"Authorization": f"Bearer {API_KEY}"},
    files={"file": open("meeting.mp3", "rb")},
    data={
        "model": "large-v3-turbo",
        "language": "auto",
        "diarize": "true",
        "response_format": "json",
    },
)

result = response.json()
for seg in result["segments"]:
    print(f"{seg['speaker']}: {seg['text']}")

import fs from "fs";

const form = new FormData();
form.append("file", fs.createReadStream("meeting.mp3"));
form.append("model", "large-v3-turbo");
form.append("language", "auto");
form.append("diarize", "true");

const res = await fetch("https://api.stt.ai/v1/transcribe", {
  method: "POST",
  headers: { Authorization: `Bearer ${API_KEY}` },
  body: form,
});

const { segments } = await res.json();
segments.forEach(s =>
  console.log(`${s.speaker}: ${s.text}`)
);

Đang chuyển từ dịch vụ nói khác sang dịch vụ văn bản?

STT.ai vs Otter.ai STT.ai vs TurboScribe STT.ai vs Fireflies STT.ai vs Rev So sánh tất cả →

Đơn giản, giá cả minh bạch

Bắt đầu tự do, tăng dần khi bạn lớn lên.

Tự do

$0/1 tháng

600 phút để bắt đầu

5 ngôn ngữ
Xuất TXT & SRT
Truy cập API

Bắt đầu

$9/1 tháng

3, 000 phút/ tháng

100+ ngôn ngữ
Tất cả các mô hình AI
Tất cả định dạng xuất

ĐẦU TƯ NHẤT

Tốt

$19/1 tháng

7,500 phút/tháng

Bản ghi riêng
Ghế không giới hạn
Xử lý ưu tiên

Công việc

$39/1 tháng

20, 000 phút/ tháng

Mọi thứ trong Pro
Nhà kho 50K min
Thảo luận AI không giới hạn

Xem tất cả các kế hoạch và giá →

Ngôn ngữ được hỗ trợ

Tất cả 100+ ngôn ngữ →

English Spanish French German Japanese Chinese Arabic Hindi Portuguese Russian Korean Italian Turkish Dutch Polish +85 nữa

Sẵn sàng để ghi lại chưa?

Tải lên tập tin đầu tiên miễn phí, không cần thẻ tín dụng, không cần đăng ký, 600 phút để bắt đầu miễn phí.

Bắt đầu phiên âm

Câu hỏi thường gặp

Từ nói sang văn bản chạy trong trình duyệt của bạn: dán URL, tải lên tập tin, hay ghi âm từ mic của bạn. STT.ai chọn mô hình AI và trả lại bản ghi trong 5 phút. Xuất dạng TXT, SRT, VTT, DOCX, JSON, hoặc PDF.

Có — mỗi khách truy cập có 600 phút miễn phí để bắt đầu trên STT.ai, có thể sử dụng cho Từ nói sang văn bản giống như bất kỳ luồng công việc nào khác. Các kế hoạch trả tiền bắt đầu từ $5/tháng mở khóa các tập tin dài hơn, bản ghi riêng và xếp hàng ưu tiên.

Từ nói sang văn bản chạy trên cùng mô hình AI như phần còn lại của STT.ai — các mô hình tốt nhất của chúng tôi đạt đến độ chính xác 95-97% trong nói rõ (3-5% Tỷ lệ lỗi từ trong các tiêu chuẩn). Thay đổi mô hình khi bay nếu lần đầu đi qua dưới mục tiêu của bạn.

Từ nói sang văn bản có thể chạy trên bất kỳ STT.ai 10+ mẫu — STT.ai Enhanced (đúng nhất), Whisper Large V3 (99 ngôn ngữ), NVIDIA Canary (#1 WER trên langs hỗ trợ), Whisper Turbo (nhanh), Moonshine (nhẹ), và nhiều hơn nữa.

Có. Mỗi bản dịch được xuất thành SRT hoặc VTT — hoạt động với YouTube, Vimeo, TikTok, VLC, và mọi trình xem video lớn. Công cụ ghi phụ đề sẽ đặt chúng lên video như phần phụ đề.

Có. Tự động dán nhãn mỗi giọng nói (Giọng nói 1, Giọng nói 2,...) và bạn có thể đổi tên chúng trong trình biên tập nội bộ. Hoạt động trên tất cả các mẫu và ngôn ngữ.

Hầu hết Từ nói sang văn bản công việc hoàn thành trong 5 phút. Một tập tin âm thanh 1 giờ thường hoàn thành trong 2-3 phút với các mẫu nhanh nhất của chúng tôi. Tốc độ phụ thuộc vào mẫu chọn và tải CPU hiện tại.

Từ nói sang văn bản chấp nhận hơn 20 định dạng — MP3, WAV, M4A, FLAC, OGG, MP4, MKV, MOV, WebM, AVI, và nhiều hơn nữa. Xuất thành TXT, SRT, VTT, DOCX, JSON, hoặc PDF.

Có. Tập tin âm thanh gửi đến Từ nói sang văn bản được xử lý và xóa theo mặc định. Các gói Pro thêm mã hóa bên khách — ngay cả khi cơ sở dữ liệu của STT.ai bị phá vỡ, bản ghi của bạn không đọc được nếu không có chìa khóa của bạn. Dữ liệu không bao giờ được dùng cho việc huấn luyện mô hình nếu không có sự đồng ý rõ ràng.

Có. STT.ai cung cấp một API REST với Python và Node.js SDKs, cộng thêm một máy chủ MCP cho Claude và Cursor — tất cả đều có thể sử dụng cho Từ nói sang văn bản workflows.

Có. Mỗi bản ghi sẽ được mở trong trình biên tập bên trong nơi bạn có thể sửa chữa từ, đổi tên người nói, điều chỉnh dấu thời gian, và thêm ghi chú. Tất cả các thay đổi sẽ được tự động lưu.

Mỗi bản ghi nhận có một URL có thể chia sẻ độc nhất. Xuất DOCX hoặc PDF cho email. Các kế hoạch Pro thêm liên kết bảo vệ mật khẩu và liên kết vĩnh viễn — hữu ích cho công việc khách hàng.

STT.ai xử lý 1.300+ nền tảng bao gồm YouTube, Vimeo, TikTok, SoundCloud, Zoom, Google Meet, podcast hosts, và nhiều hơn nữa. URL transcription works with publicly-available content only — DRM-protected sources cannot be transcribed.

Mô hình chuyển từ nói sang văn bản

STT.ai hoạt động như thế nào

1. Tải lên, ghi, hoặc dán URL

2. AI Transcribes with Your Choice of Model

3. Xuất, chia sẻ, hoặc tích hợp

Tình huống sử dụng phổ biến

Mọi thứ bạn cần cho âm thanh và hình ảnhName

API của nhà phát triển

Đơn giản, giá cả minh bạch

Ngôn ngữ được hỗ trợ

Sẵn sàng để ghi lại chưa?

Câu hỏi thường gặp

Từ nói sang văn bản hoạt động như thế nào trên STT.ai?

Từ nói sang văn bản có sẵn không?

Từ nói sang văn bản chính xác như thế nào?

Tôi có thể dùng những mô hình AI nào cho Từ nói sang văn bản?

Tôi có thể lấy phụ đề từ Từ nói sang văn bản không?

Từ nói sang văn bản có phát hiện ra các loa khác nhau không?

Từ nói sang văn bản mất bao lâu?

Từ nói sang văn bản hỗ trợ định dạng nhập nào?

Âm thanh của tôi có riêng tư khi tôi sử dụng Từ nói sang văn bản không?

Có API Từ nói sang văn bản không?

Tôi có thể chỉnh sửa một bản ghi Từ nói sang văn bản sau không?

Làm thế nào để chia sẻ những gì Từ nói sang văn bản tạo ra?

Những nền tảng nào khác hoạt động ngoài Từ nói sang văn bản?