
Diarización y voz: cómo sabemos quién habla en sesiones de pareja sin equivocarnos
En una sesión de terapia de pareja, confundir quién dijo qué hace inútil cualquier reporte. El desafío técnico de identificar dos voces en una llamada de video — y por qué importa.
Imagina recibir el reporte de una sesión de terapia de pareja donde cada cita directa está atribuida a la persona equivocada. "Luis dijo: 'me siento escuchada cuando él me da espacio.'" "Valentina dijo: 'no sé cómo decirle que me duele cuando llega tarde.'"
El reporte sería inútil. Peor que inútil — podría confundir la impresión clínica que el terapeuta construye sobre la dinámica de la pareja.
Este es el problema de diarización. Y en sesiones con múltiples participantes, especialmente sesiones de pareja, es uno de los desafíos técnicos más importantes que hemos tenido que resolver.
Qué es la diarización
La diarización es el proceso de identificar quién habla en cada momento de una conversación. El nombre viene del griego "diárion" (diario), porque históricamente se usaba para separar turnos de habla en transcripciones de reuniones y entrevistas.
En una reunión de trabajo con diez personas en sala, la diarización es difícil pero tiene margen de error. Si el sistema confunde dos participantes en un párrafo de notas de reunión, el contexto general suele rescatar el significado.
En una sesión de terapia de pareja, no hay margen de error. Cada frase tiene un autor clínico. "Me siento abandonado" tiene un peso radicalmente diferente según quién lo diga. El patrón perseguidor-distanciador que Gottman describe requiere saber exactamente qué persona adopta qué rol conversacional en qué momento.
El desafío técnico de sesiones de video
En una sala física, la diarización usa datos de micrófonos en distintas posiciones — el sonido llega con ligeros desfases temporales que permiten triangular de qué dirección viene cada voz.
En una videollamada, el problema es diferente. El audio de todos los participantes llega mezclado a través de la plataforma de video. Cada persona tiene su propio micrófono, pero la señal se combina antes de transmitirse. Los sistemas de cancelación de eco que usan las plataformas de video para suprimir el feedback entre micrófono y altavoz modifican la señal acústica de formas que complican la separación.
Hay dos señales que ayudan a la diarización en video: la biométrica de voz (cada persona tiene características acústicas únicas — tono, timbre, ritmo) y la actividad de video (qué cámara está activa en qué momento). CauceOS usa ambas.
Cómo construimos perfiles de voz por participante
Cuando el bot se une a una sesión, no empieza a diarizar inmediatamente con plena confianza. En los primeros minutos, construye un perfil de voz por participante.
Cada vez que un participante habla, el sistema extrae características acústicas de su voz — frecuencia fundamental, formantes, patrones rítmicos — y los asocia a ese participante. A medida que avanza la sesión, el perfil se vuelve más preciso.
En sesiones de pareja, hay una complicación adicional: las interrupciones. Cuando dos personas hablan al mismo tiempo — algo que ocurre con frecuencia en sesiones de pareja, especialmente en momentos de tensión — el sistema tiene que tomar una decisión sobre a quién atribuir el segmento. Nuestra aproximación es conservadora: cuando el sistema tiene baja confianza en la atribución, marca el segmento como "solapamiento" en lugar de atribuirlo incorrectamente.
El caso bilingüe
Las sesiones bilingües añaden otra capa de complejidad. En una sesión donde el terapeuta habla en español y los clientes responden en inglés, el cambio de idioma puede ser una señal adicional que ayude a la diarización. Pero también puede confundir al sistema si uno de los participantes mezcla idiomas naturalmente en sus respuestas.
Nuestra solución es tratar el idioma como una característica más del perfil de voz — útil cuando es consistente, ignorada cuando no lo es. El sistema prioritiza las características acústicas sobre el idioma detectado.
Por qué invertimos tanto en esto
Cuando hablamos con terapeutas de pareja sobre lo que necesitan de una herramienta de asistencia, la respuesta más común no es "mejores sugerencias" ni "reportes más ricos". Es: "que no confunda quién dijo qué."
Es la condición base. Si el sistema no puede atribuir correctamente el habla, todo lo demás — las alertas, los reportes, el análisis de patrones — está construido sobre arena.
Resolvimos el problema de diarización primero porque sin él, nada de lo demás tiene sentido clínico.
¿Trabajas con sesiones de pareja y quieres entender cómo CauceOS maneja la dinarización en tu contexto específico? Escríbenos a hola@cauceos.com.
Más en esta categoría
Psicología
Modalidades terapéuticas en LATAM: lo que descubrimos hablando con 40 psicólogos
4 min de lectura

Los Cuatro Jinetes de Gottman en sesiones virtuales: cómo intervenir en el momento exacto
5 min de lectura

Detección temprana de señales de crisis en terapia: cómo asistimos al clínico sin reemplazarlo
5 min de lectura
CauceOS · Newsletter
Recibe las próximas notas directo a tu correo
Reflexiones, prácticas y novedades de CauceOS. Sin spam. Te puedes dar de baja cuando quieras.
Continúa leyendo
Psicologíaterapia de pareja
Los Cuatro Jinetes de Gottman en sesiones virtuales: cómo intervenir en el momento exacto
Crítica, desprecio, defensividad y stonewalling son los cuatro patrones que mejor predicen la disolución de una relación. Detectarlos en vivo durante una sesión virtual le da al terapeuta de pareja una ventana de intervención que el ojo humano, solo, no siempre alcanza.
Psicologíamodalidades terapéuticas
Modalidades terapéuticas en LATAM: lo que descubrimos hablando con 40 psicólogos
Hablamos con 40 psicólogos de cinco países hispanohablantes para entender qué marcos terapéuticos usan realmente. Lo que encontramos cambió cómo diseñamos CauceOS.
Psicologíadetección de crisis
Detección temprana de señales de crisis en terapia: cómo asistimos al clínico sin reemplazarlo
Cómo el co-pilot identifica en tiempo real lenguaje asociado a ideación suicida, autolesión o violencia doméstica, y por qué la latencia importa tanto como la sensibilidad.