Videotranskription API

March 16, 2026

Videotranskription API

Senden Sie eine Video- oder Audiodatei und erhalten Sie ein Transkript mit Sprechererkennung. Die API unterstützt Videos der wichtigsten Plattformen und lokal hochgeladene Video-/Audiodateien.

Unterstützte Videoquellen

YouTube, Vimeo, Dailymotion, Kick, Twitch, TikTok, Facebook, Zoom, Rumble und weitere.

Lokale Uploads erfordern einen Standard-Plan oder höher. Weitere Details in der Upload-API.


Transkriptionsaufgabe einreichen

POST https://wayinvideo-api.wayin.ai/api/v2/transcripts

Anfragekörper

ParameterTypErforderlichStandardBeschreibung
video_urlstringJaQuellvideo/-audio-URL oder hochgeladene Dateikennung
source_langstringNeinnullQuellsprache des Videos. Wenn null, automatische Erkennung.
target_langstringNeinnullZielsprache für das Transkript. Wenn null, keine Übersetzung. Wenn von der Quellsprache abweichend, wird das Transkript automatisch übersetzt.
curl -X POST https://wayinvideo-api.wayin.ai/api/v2/transcripts \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "x-wayinvideo-api-version: v2" \
  -d '{"video_url": "https://www.youtube.com/watch?v=example", "target_lang": "en"}'

Antwort

{"data": {"id": "trans_proj_001", "name": "sample project name", "status": "CREATED"}}

Transkriptionsergebnisse abrufen

GET https://wayinvideo-api.wayin.ai/api/v2/transcripts/results/{id}

Antwort

{
  "data": {
    "status": "SUCCEEDED", "cost_usage": 27.0,
    "transcript": [
      {"text": "Welcome to today's presentation", "language": null, "start": 200, "end": 4500, "speaker": "Speaker 1"},
      {"text": "Thanks for coming", "language": null, "start": 5000, "end": 8200, "speaker": "Speaker 2"}
    ]
  }
}

Antwortfelder

FeldTypBeschreibung
statusstringCREATED, QUEUED, ONGOING, SUCCEEDED, FAILED
error_messagestringFehlerursache (nur wenn FAILED)
cost_usagenumberVerbrauchte API-Einheiten
transcriptarrayListe der Transkript-Segmente

Transkript-Segment

FeldTypBeschreibung
textstringTranskribierter Text
languagestring | nullErkannter Sprachcode oder null
startintegerStartzeit in Millisekunden
endintegerEndzeit in Millisekunden
speakerstringSprecher-Label (z.B. "Speaker 1")