Diarización: Identificación de hablantes en audio

Definición

La diarización de hablantes (del inglés speaker diarization) es la tarea de análisis automático de audio que divide una grabación o flujo de audio en segmentos y asigna cada segmento a un hablante específico. El resultado es una segmentación temporal del tipo "Hablante A: 0:00-0:23, Hablante B: 0:24-1:15, Hablante A: 1:16-2:30". La diarización no identifica quién es la persona, solo que dos (o más) personas distintas están hablando.

Cómo se usa

En el contexto de sesiones terapéuticas o de coaching, la diarización es crítica para que la transcripción sea legible y útil. Sin ella, una hora de sesión entre terapeuta y cliente aparece como un bloque de texto sin distinguir quién dijo qué. Con diarización, la transcripción se presenta como un diálogo estructurado: "Terapeuta: ..., Cliente: ...", que puede usarse para generar notas clínicas, analizar patrones de comunicación y detectar sesgos en el tiempo de habla.

La calidad de la diarización depende de factores técnicos: calidad del audio, solapamiento de voces (cuando dos personas hablan a la vez), similitud vocal entre hablantes y el ruido de fondo. En videoconferencias modernas, la separación de canales de audio por participante simplifica considerablemente la tarea.

En sistemas avanzados, la diarización puede combinarse con identificación de hablantes: una vez que el sistema "aprende" la voz de un hablante específico (el terapeuta), puede etiquetarlo consistentemente en sesiones futuras.

Cuándo aplicar

La diarización es esencial en cualquier grabación con múltiples participantes donde la autoría de cada fragmento de discurso es relevante. Es particularmente crítica en sesiones de terapia de pareja o familia (3+ participantes), en entrevistas estructuradas donde las respuestas del candidato necesitan distinguirse de las preguntas del entrevistador, y en sesiones de supervisión clínica.

Origen histórico

La investigación en diarización de hablantes comenzó en los años 90 en laboratorios de procesamiento del habla (NIST, DARPA). Durante décadas fue una tarea separada y costosa. La integración de modelos de diarización en sistemas de transcripción comerciales se aceleró significativamente en los años 2018-2022, cuando los modelos neurales redujeron el error de diarización en un orden de magnitud.

Cómo lo soporta CauceOS

CauceOS aplica diarización en tiempo real a cada sesión, etiquetando automáticamente los fragmentos de transcripción por hablante. En la mayoría de los casos, el sistema reconoce automáticamente si el audio proviene del canal del profesional o del cliente. El profesional puede revisar y corregir las etiquetas de hablante en la vista de transcripción post-sesión.

Términos relacionados

Transcripción streaming: la diarización ocurre en paralelo con la transcripción
Co-pilot en vivo: el co-pilot usa la diarización para contextualizar sus alertas
Traducción cruzada en vivo: la diarización es necesaria para saber a qué idioma traducir en sesiones bilingües

Referencias

Anguera, M. T. (1990). Metodología observacional. En J. Arnau, M. T. Anguera, & J. Gómez (Eds.), Metodología de la investigación en ciencias del comportamiento.
Park, T. J., et al. (2022). Review of speaker diarization: Recent advances with deep learning. Computer Speech & Language.