API de Transcripción de Vídeo

March 16, 2026

API de Transcripción de Vídeo

Envía un archivo de vídeo o audio y recibe una transcripción con identificación de locutor. Compatible con vídeos de las principales plataformas y archivos locales.

Fuentes de Vídeo Compatibles

YouTube, Vimeo, Dailymotion, Kick, Twitch, TikTok, Facebook, Zoom, Rumble y otras.

La subida local requiere un plan Standard o superior. Consulta la API de Subida.


Enviar Tarea de Transcripción

POST https://wayinvideo-api.wayin.ai/api/v2/transcripts

Cuerpo de la Solicitud

ParámetroTipoRequeridoPredeterminadoDescripción
video_urlstringURL del vídeo/audio de origen o identificador del archivo
source_langstringNonullIdioma de origen. Cuando null, se detecta automáticamente.
target_langstringNonullIdioma de destino para la transcripción. Cuando null, no se aplica traducción.
curl -X POST https://wayinvideo-api.wayin.ai/api/v2/transcripts \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "x-wayinvideo-api-version: v2" \
  -d '{"video_url": "https://www.youtube.com/watch?v=example", "target_lang": "en"}'

Respuesta

{"data": {"id": "trans_proj_001", "name": "sample project name", "status": "CREATED"}}

Obtener Resultados de Transcripción

GET https://wayinvideo-api.wayin.ai/api/v2/transcripts/results/{id}
curl -X GET https://wayinvideo-api.wayin.ai/api/v2/transcripts/results/trans_proj_001 \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "x-wayinvideo-api-version: v2"

Respuesta

{
  "data": {
    "status": "SUCCEEDED", "cost_usage": 27.0,
    "transcript": [
      {"text": "Welcome to today's presentation", "language": null, "start": 200, "end": 4500, "speaker": "Speaker 1"},
      {"text": "Thanks for coming", "language": null, "start": 5000, "end": 8200, "speaker": "Speaker 2"}
    ]
  }
}

Campos de la Respuesta

CampoTipoDescripción
statusstringCREATED, QUEUED, ONGOING, SUCCEEDED, FAILED
error_messagestringMotivo del error (solo cuando FAILED)
cost_usagenumberAPI Units consumidas
transcriptarrayLista de segmentos de transcripción

Segmento de Transcripción

CampoTipoDescripción
textstringTexto transcrito
languagestring | nullCódigo del idioma detectado, o null
startintegerTiempo de inicio en milisegundos
endintegerTiempo de fin en milisegundos
speakerstringEtiqueta del locutor (ej.: "Speaker 1")