Videotranskription API
Senden Sie eine Video- oder Audiodatei und erhalten Sie ein Transkript mit Sprechererkennung. Die API unterstützt Videos der wichtigsten Plattformen und lokal hochgeladene Video-/Audiodateien.
Unterstützte Videoquellen
YouTube, Vimeo, Dailymotion, Kick, Twitch, TikTok, Facebook, Zoom, Rumble und weitere.
Lokale Uploads erfordern einen Standard-Plan oder höher. Weitere Details in der Upload-API.
Transkriptionsaufgabe einreichen
POST https://wayinvideo-api.wayin.ai/api/v2/transcripts
Anfragekörper
| Parameter | Typ | Erforderlich | Standard | Beschreibung |
|---|---|---|---|---|
video_url | string | Ja | — | Quellvideo/-audio-URL oder hochgeladene Dateikennung |
source_lang | string | Nein | null | Quellsprache des Videos. Wenn null, automatische Erkennung. |
target_lang | string | Nein | null | Zielsprache für das Transkript. Wenn null, keine Übersetzung. Wenn von der Quellsprache abweichend, wird das Transkript automatisch übersetzt. |
curl -X POST https://wayinvideo-api.wayin.ai/api/v2/transcripts \
-H "Content-Type: application/json" \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "x-wayinvideo-api-version: v2" \
-d '{"video_url": "https://www.youtube.com/watch?v=example", "target_lang": "en"}'
Antwort
{"data": {"id": "trans_proj_001", "name": "sample project name", "status": "CREATED"}}
Transkriptionsergebnisse abrufen
GET https://wayinvideo-api.wayin.ai/api/v2/transcripts/results/{id}
Antwort
{
"data": {
"status": "SUCCEEDED", "cost_usage": 27.0,
"transcript": [
{"text": "Welcome to today's presentation", "language": null, "start": 200, "end": 4500, "speaker": "Speaker 1"},
{"text": "Thanks for coming", "language": null, "start": 5000, "end": 8200, "speaker": "Speaker 2"}
]
}
}
Antwortfelder
| Feld | Typ | Beschreibung |
|---|---|---|
status | string | CREATED, QUEUED, ONGOING, SUCCEEDED, FAILED |
error_message | string | Fehlerursache (nur wenn FAILED) |
cost_usage | number | Verbrauchte API-Einheiten |
transcript | array | Liste der Transkript-Segmente |
Transkript-Segment
| Feld | Typ | Beschreibung |
|---|---|---|
text | string | Transkribierter Text |
language | string | null | Erkannter Sprachcode oder null |
start | integer | Startzeit in Millisekunden |
end | integer | Endzeit in Millisekunden |
speaker | string | Sprecher-Label (z.B. "Speaker 1") |